做实证研究时,你是否也遇到过这些问题:明明核心变量逻辑通顺,结果却被审稿人质疑“遗漏关键控制变量”?或是不确定“哪些变量该放、哪些不该放”,导致回归结果反复波动?其实,控制变量的选择绝非“凭经验添加”,而是有严谨的底层逻辑。今天结合张子尧和黄炜两位老师在《管理世界》近期刊发的一篇研究论文《实证研究中的控制变量选择:原理与原则》,带你搞懂控制变量选择的“原理+原则”,让研究设计更经得起推敲。
在因果推断类的实证研究中,控制变量的选择是确保研究有效性和可信度的核心因素。随着“可信性革命”的推进,现代因果推断方法逐渐成为社会科学实证研究的重要方法论基础。然而,尽管控制变量在消除遗漏变量偏误、提高估计精度方面起着关键作用,但如何科学地选择控制变量仍然是一个未得到充分规范化的问题。
长期以来,控制变量的选择往往受到数据驱动、盲目模仿或简单依赖统计显著性的影响,这种现象在许多领域都较为常见。随着研究的深入,控制变量的滥用与误用逐渐暴露,给实证研究的结果带来了偏误和不确定性。因此,如何有效选择和使用控制变量已成为当今实证研究的一个重要课题。
该文借助潜在结果框架(因本斯、鲁宾,2015)和因果图(珀尔,2009)两个强有力的因果推断工具,在基于设计的研究范式下系统地分析了控制变量在因果识别和统计推断两个实证研究核心环节的重要作用和内在机理。
1. 控制变量的理论基础
这一部分通过比较两种研究范式来阐释控制变量的作用。传统的模型导向范式(model-based approach)主要关注对结果变量的数据生成过程进行建模,以改善参数估计的一致性;而设计导向范式(design-based approach)强调理解处理变量的分配机制,通过恰当的控制变量使观测性数据在局部上接近随机化实验。文章借助潜在结果框架说明,只有那些能够消除选择性偏误的变量才是有益的控制变量,而某些变量虽然常被纳入模型,却可能带来新的偏误。
2. 实证研究中的坏控制变量问题
文章区分了几类可能导致偏误的控制变量。
第一类是对撞变量(collider),这类变量同时受到处理变量和其他未观测因素的影响,一旦被控制,就会引入虚假的相关。如图2所示,假设处理变量D是随机分配的,如果研究者不控制对撞变量W,处理变量D与结果变量Y之间不存在因果关系之外的其他相关关系,此时观测性数据中D和Y的相关关系可以被识别为因果关系。然而,如果研究者控制了对撞变量W,就会使得 W 的共同原因D和u相关,由于此时u同时与D和Y相关,u 成为了会导致选择性偏误的遗漏变量(安格里斯特、皮施克,2009;奇内利等,2022)。在这个例子中,不控制W不会引起因果效应估计偏误,而控制了W反而会使得因果效应的估计中混杂入选择性偏误。正因为如此,研究者们将W这类变量称为坏控制变量。
第二类是中介变量(mediator),这类变量位于处理变量和结果变量之间,控制后会掩盖部分因果效应,从而低估真实影响。
首先是过度控制问题,处理变量D对结果变量Y的因果效应由两条路径构成,一是D对Y的直接效应D→Y,二是D通过影响W进而影响Y的间接效应D→W→Y。在这种情况下,D对Y的总因果效应是直接效应和间接效应之和。若控制住W,那么间接效应的因果路径被阻断,此时观测性数据中的D和Y之间的相关关系只能反映直接效应的影响,导致因果效应估计偏误。更重要的是,这种偏误程度的大小无法评估,甚至在极端情况下能够直接改变估计系数的符号。例如,假设直接效应为2,间接效应为-4,总因果效应为两者之和等于-2。但是,如果将中介变量作为控制变量,研究者将得到大小为 2 的因果效应估计值,从而错误地认为处理变量对结果变量存在正向因果影响。
然而,现实中观测性数据几乎一定会存在某些不可观测因素u是中介变量W和结果变量Y的共同原因(见图3b),此时中介变量W同时也是一个对撞变量。在这种情况下将W作为控制变量,一方面会剥离掉间接效应,另一方面还会引入新的选择性偏误,对于因果效应估计值的影响将会更加复杂和难以判断。正因为如此,近年来许多学者都对实践中使用中介效应分析三步法提出了担忧,建议研究者们要慎重采用这种方法(江艇,2022)。
第三类是一类特殊的控制变量,控制它们不会导致选择性偏误,但是会降低估计效率,表现为增大估计系数的标准误,使得置信区间变宽、统计功效下降。理解这类变量的作用机制,对优化研究设计、平衡偏差与方差至关重要。文章强调,错误的控制变量可能破坏研究设计,使估计偏误更加严重。
3. 控制变量的选择标准
基于上述理论分析,论文总结了选择控制变量时的五大基本原则:
一是基于因果结构选择控制变量。控制变量的选择应基于理论驱动和因果结构,而非简单依赖数据或统计显著性。控制变量的作用应当能够根据因果模型中各变量的关系进行理论推导,确保其能消除遗漏变量偏误。例如,在进行高等教育与收入关系的研究时,家庭背景可能是遗漏变量,理论上需要控制这个变量来消除选择性偏误。
二是高度重视坏控制变量问题。避免选择对撞变量和中介变量作为控制变量。虽然这些变量可能在表面上看似与结果变量无关,但它们的引入可能会改变因果效应的方向,甚至产生严重的选择性偏误。因此,研究者应确保控制变量的选择不会引入新的误差。
三是关注控制变量的重叠性(Overlap)假设。处理组与对照组的控制变量分布必须存在足够的重叠性。重叠性假设确保在不同组之间能够找到足够的比较对象。如果某一组的控制变量分布完全与另一组不同,那么进行因果推断时可能会发生外推误差。为保证重叠性假设成立,研究者应检查控制变量的分布情况,并进行适当的样本修剪或加权处理。
四是复杂情境下的偏差—方差权衡。在复杂的因果结构中,控制变量的选择可能涉及偏差与方差之间的权衡。控制更多的变量可能减少遗漏变量偏误,但同时会增加估计的标准误,降低统计功效。因此,研究者在选择控制变量时需要权衡其对结果的影响。例如,在教育回报率的研究中,控制过多的个体特征(如家庭背景、工作经验等)可能会导致估计不稳定,且在某些情况下会使得有效样本数量减少。
五是避免过度解读控制变量的估计系数。控制变量的系数仅用于消除选择性偏误,并不一定具有因果含义。即使控制变量的系数与理论预期一致,也不能简单地将其解读为因果效应。研究者应避免将控制变量的估计系数作为最终的因果推断结果,尤其是在控制变量本身存在内生性问题时。
4. 实践中的应用建议
文章进一步提出了若干具体的操作建议。研究者应当以理论和制度背景为依据,在选取控制变量前充分理解处理变量的形成机制;在模型中引入控制变量时应说明其理论作用和所针对的潜在偏误;在实证分析中保持透明,避免事后筛选变量以追求显著结果;在使用机器学习等自动化变量筛选方法时,要注意它们往往基于预测性能而非因果结构,可能导致错误的变量选择。
5. 结论与展望
文章最后指出,控制变量在实证研究中既是有力的工具,也可能成为误导的来源。科学的控制变量选择能够消除混杂偏误、提高估计精度,而随意的添加则可能破坏因果识别、放大估计误差。未来的研究应进一步探讨在不同识别策略下的控制变量逻辑,例如在双重差分DID、工具变量IV或断点设计RDD等框架中,如何根据识别假设选择最合适的控制集,并推动形成更透明和可复制的控制变量报告规范。
文献引用
张子尧,黄炜. 实证研究中的控制变量选择:原理与原则[J]. 管理世界,2025,41(10):210-234.
DOI:10.19744/j.cnki.11-1235/f.2025.0136.