当前位置: 网站首页 科学研究 正文

科学研究

前沿方法 | 从“混杂困境”到“精准识别”:双重机器学习如何重塑经管科研的因果推断?
 


 

在经管科研中,我们始终在追问一个核心问题:某一变量是否真的会影响另一变量?这种因果关系的识别,远比相关关系的发现更具理论价值与政策意义然而,现实往往复杂得多。以教育对收入的影响为例,高收入者的高收入可能并非完全来自教育——他们或许本身具备更强的学习能力(未观测混杂),或许家庭背景更优(高维混杂),这些因素同时影响是否接受高等教育和未来收入水平,导致传统回归方法难以剥离真实教育效应与混杂效应的边界。

直到双重机器学习(DML)的出现,这一困境才得到了突破性解决。作为融合机器学习灵活性与因果推断严谨性的前沿方法,DML不仅能处理高维混杂、非线性关系等传统方法的软肋,更能为经管科研提供从数据描述到因果识别的可靠路径。本文将从原理拆解优劣势分析经管应用场景三部分,系统讲解双重机器学习,帮你掌握这一提升论文因果识别质量的利器。

undefined 

一、双重机器学习的原理:如何用两步残差回归剥离混杂?

要理解DML,我们需要先回到因果推断的核心框架——潜在结果模型(Rubin Causal Model)。在该框架下,每个研究对象(如个体、企业)都存在两种潜在结果

处理组潜在结果Y(1):若接受处理(如接受高等教育、企业投入研发)的结果;

控制组潜在结果Y(0):若未接受处理的结果;

真实因果效应(平均处理效应ATE):τ=E[Y(1)−Y(0)]

但现实中,我们无法同时观测同一对象的Y(1)Y(0),只能观测到实际处理状态下的结果(即Y=D⋅Y(1)+(1−D)⋅Y(0)D=1为处理组,D=0为控制组)。此时,混杂变量(X)(如能力、家庭背景、企业规模)成为因果识别的关键——X同时影响DY,未控制X会导致选择性偏误,使传统回归的估计结果偏离真实τ

1.1 传统因果推断方法的痛点

传统因果识别方法(如OLS、倾向得分匹配PSM、双重差分DID)在面对以下经管科研常见场景时,往往力不从心:

高维混杂:当X维度超过100(如企业微观数据中的财务指标、地区特征、行业变量),OLS会陷入维度灾难(参数过多导致估计不稳定),PSM的倾向得分估计也会因维度诅咒失效;

非线性关系:若XYD的影响是非线性的(如企业规模对研发投入的影响在中小企业和大型企业中完全不同),传统线性模型(如OLS设定Y=α+βD+γX+ϵ)会因模型设定偏误导致τ估计偏误;

内生性与过拟合交织:若用同一批数据同时估计混杂变量的影响处理效应,容易出现过拟合,进一步放大内生性偏误。

1.2 DML的核心思想:分解-拟合-残差回归

DML的本质是将因果推断的两个核心任务(估计混杂对Y的影响、估计混杂对D的影响)与处理效应估计分离,用机器学习模型灵活拟合前两个任务,再通过残差回归得到无偏的τ。其核心逻辑可概括为三句话:用机器学习精准剥离混杂变量X对结果Y的影响,得到去混杂后的Y残差;用机器学习精准剥离混杂变量X对处理D的影响,得到去混杂后的D残差;用Y残差对D残差做回归,回归系数即为真实处理效应τ的一致估计。

1.3 DML的数学表达与关键步骤

为更清晰理解,我们先设定DML的基本模型假设(这些是因果推断的通用假设,DML未放松但能更好满足):结果方程:Y=Dτ+g(X)+ϵ,其中g(X)XY的未知影响函数,ϵ是随机误差(与XD无关);处理方程:D=m(X)+ν,其中m(X)XD的未知影响函数,ν是随机误差(与X无关,且E[ν∣X]=0);

关键假设:条件独立假设(Y(1),Y(0)⊥D∣X,即控制X后,D与潜在结果独立)、重叠性假设(0<P(D=1∣X)<1,即每个X特征下都有处理组和控制组)。

基于以上假设,DML通过交叉拟合实现无偏估计,具体步骤以最常用的DML2为例(Chernozhukov等,2018):

步骤1:数据拆分(交叉拟合的基础)

将样本随机分为K个互不重叠的子集(如K=5折、10折),记为S1,S2,……,SK。交叉拟合的核心是用部分数据拟合,用另一部分数据计算残差,避免同一数据既用于拟合g(X)m(X)又用于估计τ,从而消除过拟合导致的偏误。

步骤2:拟合g(X)m(X),计算残差

对每一个子集Skk=1K):

用除Sk外的所有数据(S−k)训练机器学习模型1(如随机森林、LASSO、梯度提升树),拟合g(X),得到预测函数g^−k(X)

S-k训练机器学习模型2(可与模型1不同),拟合m(X),得到预测函数m-k(X)

S的样本计算去混杂残差”:残差Yi,resid=-g-k(X)(剥离XY的影响后,Y净变化)残差Di,resid=Di- m-k(X)(剥离XD的影响后,D净变化)

步骤 3:残差回归估计处理效应τ

将所有样本的YresidDresid做简单线性回归

Yresid=τ·Dresid

其中,回归系数就是处理效应的一致估计。若要估计条件平均处理效应(CATE,即不同X特征下的T),可在残差回归中加入XDresid的交互项,即Yresid=τ^0+τ^1·Dresid·X1+...+τ^p·Dresid·Xp此时τ^1,...,τ^p反映了不同X特征对处理效应的调节作用这对经管科研中异质性分析至关重要。

二、双重机器学习的优劣势:经管科研视角的辩证分析

2.1 DML 的核心优势:

Ø 高维混杂处理能力,突破传统方法的维度诅咒。

Ø 模型设定自由,避免线性假设的强约束。

Ø 良好的统计性质,满足科研因果推断+假设检验需求。

Ø 兼容性强,可与经管科研常用方法结合。

2.2 DML 的局限与挑战:

Ø 计算复杂度高,对工具与算力有要求。

Ø 黑箱特性,解释性弱于传统参数模型。

Ø 样本量依赖强,小样本下表现可能不如传统方法。

Ø 无法解决未观测混杂,依赖因果假设的合理性

、双重机器学习在经管科研中的应用场景

在经管科研中,双重机器学习凭借其处理高维混杂、拟合非线性关系及精准识别异质性效应的能力Chernozhukov等,2018;王红建等2023,已广泛应用于多核心领域:在劳动经济学中,可针对教育/职业培训对收入的影响等议题,控制个人技能、就业地区、家庭负担等高维变量,剥离选择性偏误并识别不同学历群体的效应差异,精准估计人力资本投资回报率;在公司金融领域,能结合工具变量或处理非线性关系,破解打破刚性兑付对企业融资的影响中内生性与维度诅咒问题(王茹婷等,2022),甚至量化研发投入的门槛效应;在发展经济学里,通过DML-DID等组合方法优化扶贫政策评估如网络基础设施张涛等,2023)、政策取向一致性(王渊等,2025、军民融合倪宣明等,2024,规避传统DID平行趋势假设缺陷,清晰区分无劳动能力/有劳动能力农户的政策效应差异,为政策精准调整提供依据;在市场营销研究中,可借助LSTM等模型拟合滞后效应,量化线上广告/价格促销对快消品销量的影响,剥离季节性、竞争对手行为等高维混杂,计算广告的短期与长期边际效应,指导企业投放节奏。整体而言,DML适配经管领域大数据场景,有效弥补传统方法在复杂因果识别中的局限,为理论验证与政策/企业决策提供更可靠的实证支撑。

 

参考文献

[1] 倪宣明,郑田田,赵慧敏.军民融合能降低高新技术企业权益融资成本吗?——基于双重机器学习的实证研究[J].系统工程理论与实践,2023,43(06):1630-1650.

[2] 王红建,张科,李青原.金融科技的经济稳定器作用:金融加速器理论的视角[J].经济研究,2023,58(12):4-21.

[3] 王茹婷,彭方平,李维,.打破刚性兑付能降低企业融资成本吗?[J].管理世界,2022,38(04):42-64.

[4] 王渊,李牧南,梁彦希.政策取向一致性与企业高质量绿色转型[J].管理世界,2025,41(07):108-139.

[5] 张涛,李均超.网络基础设施、包容性绿色增长与地区差距——基于双重机器学习的因果推断[J].数量经济技术经济研究,2023,40(04):113-135.

[6] Chernozhukov V., Chetverikov D., Demirer M., et al, (2018), Double/Debiased Machine Learning for Treatment and Structural Parameters[J], Econometrics Journal, 21(1), C1-C68.

 

编辑 |

文字 | 郑攀攀

初审 | 郑攀攀 秦畅

复审 | 李莉

终审 | 王艳

 

关闭窗口

    中国广州市番禺区小谷围广州大学城 510006 (南校区)

    电话: (020) 39328957 | 传真: (020) 39328957

    Copyright?2016 广东外语外贸大学粤港澳大湾区会计与经济发展研究中心 版权所有