在传统机器学习中,研究者更关注“预测”问题——即如何利用特征变量X精确地预测结果变量Y。然而,在社会科学与政策研究中,我们更关心的是“如果改变一个变量,会对结果造成怎样的影响?”这便是因果推断(Causal Inference)要回答的问题。
因果森林(Causal Forest)的提出,正是为了在复杂、高维的数据环境中,寻找因果效应的异质性。哈佛大学的Susan Athey和Guido Imbens(2016)夫妇提出,用诚实分支(honest splitting)取代适应性分支(adaptive splitting),将回归树算法改进为“因果树”(洪霓和于冷,2021)。该方法随后被Wager和Athey(2018)拓展,将随机森林和因果推断中的潜在结果模型结合起来,创造了“因果森林”(causal forest)。本质上是将随机森林(Random Forest)的思想扩展到因果分析领域,旨在估计条件平均处理效应(Conditional Average Treatment Effect,CATE),即不同个体或群体在接受干预后的差异性效果。因果森林使研究者能够从现有数据中得到更多关于异质性的信息,极大促进了经济学家在因果效果异质性上的探索(洪霓和于冷,2021)。刘景江等(2023)也指出采用基于随机森林的因果森林来估计异质性处理效应是机器学习帮助研究者有效进行因果推断的重要策略。
图片来源:李燕等(2025)
一、方法简介
1. 基本思想
传统的因果推断(如双重差分DID、倾向得分匹配PSM等)往往关注平均效应(ATE),而因果森林试图刻画“个体化因果效应”:
这意味着,对于具有特征X=x的个体,我们希望估计其在接受处理(treatment)与未接受处理时结果的期望差异。
因果森林使用“树结构”划分样本,使得同一叶节点的个体具有相似的协变量特征,同时在分裂时最大化不同组别之间的处理效应差异。通过大量随机抽样与聚合(ensemble),它在稳健性与泛化能力上远超单棵因果树。
2. 模型简要训练流程
(1)样本分割
为避免过拟合和“自我解释”,因果森林采用“样本分割”策略。使用自助抽样法从原始数据中生成B个训练子集,用于建立树的结构。同时,为了保证估计的无偏性,会留出一部分“袋外”样本用于后续估计每个叶节点的因果效应。
(2)树的构建
对每个训练子集,构建一棵因果树。在树的每个节点进行分裂时,算法不再寻找使子节点Y均值差异最大的分割点,而是寻找能使子节点间处理效应估计值差异最大化的分割点,增强异质性识别能力。所以,因果森林本质上是在主动寻找那些处理效应可能不同的子群体。
(3)诚实性原则
这是因果森林的一个关键设计,用于决定树结构的数据(分裂样本)和用于在树叶节点估计处理效应的数据(估计样本)完全分开。这一原则有效避免了过拟合,并确保了处理效应估计的理论无偏性。
(4)聚合
对于一个新的样本点,让它遍历每一棵因果树,最终落到每棵树的某个叶子节点中。该样本点的最终个体处理效应,就是其在所有树中所落叶子节点的处理效应估计值的平均。通过对多棵因果树的平均化(bootstrap aggregating),获得平滑且稳健的效应估计。
(5)效果估计
最终得到的结果是每个个体的条件平均处理效应估计值,可用于进一步的统计推断或决策。
二、优缺点分析
1. 优点
(1)强大的异质性识别能力
传统方法如DID或PSM往往只能提供总体效应,而因果森林能自动捕捉异质性处理效应,揭示不同群体间的政策或干预效果差异,这为精细化决策提供了可能。
(2)高维特征处理能力
因果森林继承了随机森林的非参数性质,擅长处理海量特征和变量间复杂的交互作用,可在无须指定模型形式的情况下自动捕捉复杂的非线性关系与交互项,特别适合“大而杂”的社会经济数据。
(3)无需强假设的灵活性
传统的回归模型严重依赖于函数形式的正确设定(如线性、二次型),如果设定错误,估计将产生偏误。相比线性回归模型,因果森林作为非参数方法,在很大程度上摆脱了这一束缚,不依赖线性假设或交互项设定,更贴合现实世界中复杂的因果机制。
(4)个体化决策支持
在公共政策、金融风控、医疗干预等领域,决策往往需“因人而异”。因果森林可提供个体级的处理效应估计,实现精准决策。
(5)提供有意义的异质性洞察
通过分析哪些特征在因果森林的分裂中最为重要,研究者可以反向推断出导致处理效应异质性的关键驱动因素,这本身就是一个极其有价值的发现。
(6)坚实的理论基础
与许多“黑箱”机器学习模型不同,因果森林建立在严谨的因果推断框架上,并提供了统计推断的理论保障(如渐近正态性),使得我们可以计算置信区间并进行假设检验。
2. 缺点
(1)可解释性较弱
虽然模型比神经网络等“黑箱”更易解读,能揭示异质效应,但一个包含数百棵树的森林整体决策逻辑依然是复杂的,“黑箱”特征较强。研究者难以直接得出“为什么某群体效应更强”的清晰机制,后续解释往往需要结合特征重要性分析等方法。
(2)计算成本高
在大样本或高维环境中,构建成百上千棵树并进行诚实估计,随机森林的训练与推断计算量较大,需要大量的计算资源和时间,尤其在需要Bootstrap估计置信区间时。
(3)对样本独立性敏感
算法假设样本独立同分布(i.i.d.),如果存在未观测到的混淆变量(同时影响处理选择和结果),在存在空间相关性或网络依赖的情况下,因果森林的估计是有偏的。因果森林解决的是异质性问题,而非内生性问题。
(4)对超参数敏感
树的深度、数量、最小叶子节点样本量等参数需要仔细调优,不当的设置可能导致过拟合或欠拟合。
(5)理论门槛较高
尽管R等统计包(如grf包)提供了封装函数,但理解其底层逻辑与假设仍需较强的计量与编程基础,对社会科学研究者来说学习曲线相对陡峭。
三、在经管学术研究中的应用
因果森林的能力完美契合了经管领域许多核心问题的需求,近年来,越来越多的学者将因果森林应用于研究中。唐礼智等(2022)在构建森林的过程中发现,企业规模和企业性质是影响绿色创新最重要的两个分裂变量。代志新等(2023)基于分组回归和因果森林的异质性分析发现,道德助推产生了最多的负面效应,对纳税主体的税收遵从产生适得其反的影响,不同类型的行为助推在具有不同可观测特征的纳税主体间存在异质处理效应。王耀中等(2024)基于因果森林算法的分析,测度绿色创新对企业环境绩效的影响。吕镯等(2024)利用机器学习中的因果森林算法评估了员工持股计划影响企业全要素生产率的政策效应。李影等(2025)基于因果森林算法考察知识产权示范城市建设对城市技术创新的影响及其后果。岳立等(2025)构建因果森林模型就大科学装置集聚对低空经济领域多维度机制进行因果推断。张玲等(2025)采用因果森林模型考察了低碳城市试点政策与促进科技和金融结合试点政策对企业新质生产力的政策协同效应,报告了不同因果树数量(500、1000、1500、2000)下的估计结果和每个因果树的个体处理效应。陶春海等(2025)运用因果森林进行异质性检验发现,基本医疗保险对城乡农户家庭经济韧性的正向影响随着家庭经济韧性水平的提高而递减;对没有外出务工人员农户家庭经济韧性的影响明显高于有外出务工人员农户家庭;并且对于有外出务工人员农户家庭,城乡居民基本医疗保险对其经济韧性的正向影响高于城镇职工医疗保险。
参考文献
[1] Athey S, Imbens G. Recursive partitioning for heterogeneous causal effects[J]. Proceedings of the National Academy of Sciences, 2016, 113(27): 7353-7360.
[2] 洪霓,于冷.吉多·因本斯对因果关系分析的方法论贡献——2021年度诺贝尔经济学奖得主学术贡献评介[J].经济学动态,2021(11):131-144.
[3] Wager S, Athey S. Estimation and inference of heterogeneous treatment effects using random forests[J]. Journal of the American Statistical Association, 2018, 113(523): 1228-1242.
[4] 刘景江,郑畅然,洪永淼,.机器学习如何赋能管理学研究?——国内外前沿综述和未来展望[J].管理世界,2023,39(09):191-216.
[5] 李燕,陈文进,张书维,.行为助推工具的异质性效应:基于交互效应模型与机器学习算法的对比分析[J].公共行政评论,2025,18(05):135-157+199.
[6] 唐礼智,周林,杨梦俊,.环境规制与企业绿色创新*——基于“大气十条”政策的实证研究[J].统计研究,2022,39(12):55-68.
[7] 代志新,高宏宇,程鹏,.行为助推对纳税遵从的促进效应研究[J].管理世界,2023,39(06):51-77.
[8] 王耀中,黄选爱,胡尊国,.绿色创新对企业环境绩效的影响研究——基于因果森林算法的分析[J].财经理论与实践,2024,45(03):125-130.
[9] 吕镯,李连伟,杜明泽,.员工持股计划提高了企业全要素生产率吗?——基于激励与治理双重效应视角[J].数量经济研究,2024,15(03):190-212.
[10] 李影,方远平,毕斗斗,.中国城市技术创新的空间差距及知识产权示范城市建设影响因素[J].统计与信息论坛,2025,40(03):117-128.
[11] 岳立,于新媛,潘均柏,.大科学装置集聚能使低空经济技术量质齐升吗[J].科学学研究,2025,43(11):2283-2299.
[12] 张玲,崔雅馨,董战峰,.低碳转型与科技金融协同赋能企业新质生产力:基于双政策视角[J].中国环境管理,2025,17(04):18-29.
[13] 陶春海,周辉,伍洲豪,等.基本医疗保险对农户家庭经济韧性的影响机制研究——基于CFPS微观调查数据[J].统计研究,2025,42(10):119-130.