严谨的因果推断是现代社会科学实证研究的基石。尽管随机化实验被视为因果识别的“黄金标准”,但囿于伦理、成本与外部有效性等限制,大量重要的社会科学问题仍然需要依靠观测性数据开展实证研究,因此观测性研究仍是当前经济学、管理学等学科的主流方法。在观测性研究中,控制变量的选择是决定因果推断有效性的关键环节。然而,在当前的社会科学实证研究中,控制变量的选择普遍存在随意性和主观性问题。具体表现为:盲目堆砌控制变量、机械照搬既有文献的变量组合、甚至为追求统计显著性而进行人为筛选(p-hacking)。这些做法严重削弱了研究结论的可信度与科学价值,阻碍了知识的有效积累。以“可信性革命”为代表的现代因果推断方法为理解控制变量提供了新视角,但如何系统地将这些理论原理转化为可供研究者遵循的清晰原则与操作指南,仍需要进一步深入分析和归纳总结。
本文系统阐释控制变量在观测性实证研究中的作用原理、选择标准、使用原则与实践建议。利用潜在结果框架和线性回归模型估计量分解,明确控制变量在因果识别和统计推断两个核心环节的重要作用。在因果识别环节,“好”控制变量通过合理分层让观测性数据在局部尽可能近似于随机化实验,而“坏”控制变量会引入选择性偏误。在统计推断环节,“好”控制变量有助于减少数据噪音干扰,提高估计精度,而“坏”控制变量则会放大估计误差、降低统计功效。控制变量的“好”与“坏”取决于其在因果结构中的位置,而研究者对因果结构的理解来源于社会科学理论和现实制度背景,故控制变量的选择应由理论驱动而非数据驱动。在此基础上归纳实证研究中若干类常见控制变量的分类判别方法,总结提炼控制变量使用的5个基本原则:基于因果结构选择控制变量、高度重视坏控制变量问题、关注控制变量的重叠性、在复杂情况下权衡控制变量“利”“弊”,以及避免过度解读控制变量系数,并基于上述原则提出具体的实践建议。本文为社会科学实证研究者优化研究设计提供了富有操作性的方法论框架,对提升实证研究的可信性、透明性和可复制性具有指导意义和参考价值。