前沿方法 | 断点回归法：因果推断的“准自然实验”利器-广东外语外贸大学粤港澳大湾区会计与经济发展研究中心

当前位置: 网站首页

科学研究

正文

科学研究

前沿方法 | 断点回归法：因果推断的“准自然实验”利器

在科研中，因果推断是核心痛点——我们总在追问“政策实施是否真的促进了经济增长？”“教育投入能否显著提升收入水平？”，但观测数据中的内生性问题，往往让简单的回归分析难以得出可靠结论。

双重差分法（DID）、工具变量法（IV）虽为常用的因果推断工具，但前者依赖严格的平行趋势假设，后者难以找到满足外生性与排他性的工具变量，在很多场景下适用性受限。而断点回归法（Regression Discontinuity Design，以下简称RDD），凭借“接近自然实验”的核心优势，无需严苛假设，就能在较弱条件下实现可靠的因果推断（余静文和王春超，2011），成为近年来经管科研、公共政策评估等领域的“热门方法”，更是顶刊论文中高频出现的实证策略之一。本文将从基础原理入手，层层拆解RDD的核心逻辑，详解其优劣性。

一、断点回归法（RDD）的核心原理

断点回归法最早由Thistlethwaite和Campbell于1960年提出，最初用于研究奖学金对学生未来成绩的影响——当学生成绩达到某一特定门槛时，将获得奖学金资助，而成绩在门槛附近两边的学生具有极强的可比性，因此可以以成绩门槛作为断点，识别奖学金与学生后续成绩之间的因果关系。但该方法的适用性在当时未被充分重视，直到2001年Hahn等人对RDD的识别条件、估计方法和统计推断进行了系统的理论证明，RDD才正式成为因果推断领域的核心工具，广泛应用于经济学、政治学、社会学等多个学科。

1. RDD的核心构成要素

（1）驱动变量

驱动变量又称“分配变量”“运行变量”，是决定观测对象是否接受干预的核心连续变量，也是RDD的“灵魂”。其核心特征是连续可测，且在断点附近的取值是随机波动的，无法被观测对象精确操纵——这是保证断点附近两组对象具有可比性的关键前提。

常见的驱动变量分为两类：一类是“数值型变量”，如考试分数、收入水平、企业规模、CD4细胞计数（医学领域）等；另一类是“时间型变量”，如政策实施时间、事件发生时间等（此类变量对应的是时间断点回归，后文会详细介绍）。

（2）断点

断点是驱动变量的一个特定临界值，也是划分处理组和对照组的“分界线”——当驱动变量的取值超过该临界值时，观测对象进入处理组（接受干预）；当驱动变量的取值低于该临界值时，观测对象进入对照组（未接受干预）（精确断点场景），或接受干预的概率发生显著跳跃（模糊断点场景）。

断点的来源主要有两种：一是“天然断点”，由政策规定、制度设计或客观规律决定，具有外生性，这也是RDD最理想的断点来源。例如：高考录取分数线（驱动变量：高考分数，断点：录取分数线，处理组：被录取学生，对照组：未被录取学生）；排污费政策中的污染物排放阈值（驱动变量：污染物排放量，断点：排放阈值，处理组：排放量超标、需缴纳更高排污费的企业，对照组：排放量达标、缴纳常规排污费的企业）；退休政策中的年龄阈值（驱动变量：年龄，断点：60岁，处理组：退休人员，对照组：在职人员）。

二是“人为设定断点”，由研究者根据研究问题和数据特征，在合理范围内设定断点（需充分论证设定的合理性，避免内生性质疑）。例如：研究“最低工资标准对企业就业的影响”，若某地区最低工资标准为1800元/月，研究者可将“企业平均工资”作为驱动变量，将1800元作为断点，划分处理组（平均工资低于1800元、需上调工资的企业）和对照组（平均工资高于1800元、无需上调工资的企业）。

（3）结果变量

结果变量是研究者关注的、受干预措施影响的变量，也是RDD最终要解释的“因变量”。在经管科研中，结果变量的选择需与研究问题高度相关，且可测、可量化。例如：研究奖学金对学生成绩的影响，结果变量是“学生后续的考试成绩”；研究排污费上调对企业出口的影响，结果变量是“企业出口额、出口强度”；研究教育投入对收入的影响，结果变量是“个人年收入、收入增长率”；研究环保政策对企业生产率的影响，结果变量是“企业全要素生产率、人均产出”。

2. RDD的核心假设

断点回归法之所以能实现可靠的因果推断，核心是基于三个较弱的假设——相较于双重差分法的“平行趋势假设”、工具变量法的“外生性假设”，RDD的假设更易于检验，也更贴近现实，这也是其核心优势之一。三个核心假设缺一不可，若假设不成立，RDD的估计结果将失去可靠性。

（1）连续性假设

这是RDD最核心、最关键的假设，其含义是：在断点附近，除了干预变量（是否接受干预）之外，所有影响结果变量的其他混杂因素（可观测和不可观测的），都随着驱动变量的变化而平滑连续，不存在跳跃。换句话说，断点附近的处理组和对照组，在所有混杂因素上具有可比性，唯一的差异就是“是否接受干预”。

仍以“60分断点”为例：连续性假设意味着，在60分附近（如59分和61分），学生的学习能力、家庭背景、学习态度等所有影响后续成绩的因素，都没有显著差异——59分的学生和61分的学生，本质上是“几乎一样”的人，只是因为1分的差距，被划分到了不同的组（补课组和免作业组）。因此，两组后续的成绩差异，只能归因于“补课”这一干预，而非其他因素。

（2）断点假设

断点假设的含义是：干预变量（是否接受干预）在断点处存在显著的非连续性——即驱动变量跨越断点时，观测对象接受干预的概率会发生突然跳跃（精确断点中跳跃幅度为1，模糊断点中跳跃幅度为某一正数）。这是RDD能够划分处理组和对照组的前提，若干预变量在断点处连续，就无法区分处理组和对照组，也就无法识别因果效应。

（3）局部随机化假设

局部随机化假设是对连续性假设的补充，其含义是：在断点附近的一个微小邻域内，观测对象的驱动变量取值是随机的，即观测对象无法精确控制自己的驱动变量，使其刚好跨越断点。这一假设可以避免“人为操纵驱动变量”导致的选择性偏差——如果观测对象能够精准控制驱动变量（如学生刻意考60分），那么断点附近的两组对象就不再具有可比性（刻意考60分的学生，其学习态度可能与其他学生不同），从而导致估计结果偏差。

二、断点回归法（RDD）的优缺点

作为一种准实验方法，断点回归法的核心优势在于“接近自然实验”，能在较弱假设下实现可靠的因果推断，但其也存在自身的局限性，适用场景受到一定限制。对于研究者而言，清晰认识RDD的优缺点，才能合理选择实证方法，避免滥用RDD导致的论文质量问题——既不盲目追捧，也不忽视其核心价值。

1. RDD的核心优势

（1）因果推断更可靠，内生性问题更易解决

内生性问题（选择性偏差、遗漏变量、反向因果）是经管实证研究的“头号难题”——普通最小二乘法（OLS）由于无法排除混杂因素的干扰，往往会高估或低估因果效应；工具变量法（IV）的核心难点是“找到满足外生性和排他性的工具变量”，现实中很难找到理想的工具变量；双重差分法（DID）则依赖严格的“平行趋势假设”，若处理组和对照组的初始趋势不一致，估计结果就会出现偏差。

而RDD通过“局部可比”的逻辑，巧妙规避了内生性问题：断点附近的处理组和对照组，除了“是否接受干预”之外，其他混杂因素（可观测和不可观测的）都具有可比性（连续性假设），因此两组的结果差异只能归因于干预本身，而非其他混杂因素。同时，RDD的核心假设（连续性假设、断点假设、局部随机化假设）都可以通过实证方法检验（如协变量连续性检验、密度检验、安慰剂检验），一旦假设成立，因果推断的可靠性就会显著高于OLS、DID等方法，甚至接近随机对照实验（RCT）的效果——RCT是因果推断的“金标准”，但由于成本高、伦理限制，在经管科研中难以实施，而RDD作为准实验方法，其调整混杂因素的能力仅次于RCT，是现实中最理想的因果推断工具之一。

（2）假设更弱、更贴近现实，适用性更强

与DID、IV相比，RDD的核心假设更弱、更贴近现实，且易于检验，这也是其适用范围广泛的重要原因。如DID的核心假设是“平行趋势假设”——处理组和对照组在干预实施前，结果变量的变化趋势一致，这一假设在现实中往往难以满足（如不同地区的经济发展水平、不同企业的经营状况，初始趋势可能存在显著差异），且平行趋势假设的检验方法相对有限，难以充分验证；IV的核心假设是“外生性假设”和“排他性假设”——工具变量与内生解释变量相关，且与误差项不相关，工具变量只能通过内生解释变量影响结果变量，这两个假设几乎无法通过实证方法直接检验，只能通过理论论证，主观性较强。

而RDD的三个核心假设（连续性假设、断点假设、局部随机化假设），都可以通过具体的实证方法检验（如断点图、密度检验、协变量连续性检验、安慰剂检验），检验结果客观、可重复，无需过多的理论论证。即使假设存在轻微偏差，也可以通过调整带宽、采用稳健性检验方法（如甜甜圈RDD）进行修正，降低偏差对估计结果的影响。因此，在很多DID、IV无法适用的场景中，RDD仍然可以发挥作用。

（3）可用于政策评估，实践价值突出

经管科研的核心目标之一，是为公共政策制定、企业决策提供理论支撑和实证依据，而RDD恰好是政策评估的“理想工具”——现实中很多公共政策、企业干预措施，都存在明确的“断点规则”（如最低工资标准、排污费政策、扶贫政策、教育政策等），这些规则天然适合采用RDD进行评估，能够精准识别政策的实际效果，为政策调整、优化提供可靠依据。

（4）扩展形式丰富，适配更多研究场景

随着RDD理论的不断发展，其扩展形式越来越丰富，能够适配更多复杂的经管科研场景，解决传统RDD无法解决的问题。常用的扩展形式包括：

如时间断点回归（RDiT）：以时间作为驱动变量，干预实施时间作为断点，适用于所有观测对象在同一时间点接受干预的场景，能够识别特定时间点实施的政策或事件的因果效应——由于缺乏处理状态在时间维度上的变化，传统RDD和DID往往难以适用，而RDiT通过时间作为驱动变量，假设影响结果变量的不可观测因素在时间上平滑变化，能够有效解决这一问题，适用于政策全面实施、无地区差异的场景（如全国统一实施的税收政策、社保政策）；

地理断点回归：以地理距离作为驱动变量，政策边界作为断点，适用于政策在地理边界两侧实施不同干预的场景（如相邻两个省份实施不同的排污费政策、最低工资标准），能够有效排除地区差异的干扰，精准识别政策效应。

2. RDD的局限性

1. 对断点和驱动变量的要求极高，适用场景有限

RDD的核心前提是“存在明确的驱动变量和断点”，且驱动变量需满足“连续可测、不可精确操纵”的条件——这一要求在很多科研场景中难以满足，导致RDD的适用范围受到限制。此外，若驱动变量存在测量误差，或观测对象能够精确操纵驱动变量，则RDD的核心假设（局部随机化假设）不成立，估计结果会出现严重偏差，此时也无法采用RDD——即使强行采用，估计结果也不具有可靠性，难以通过论文评审。

2. 依赖断点附近的样本，样本量不足可能影响结果可靠性

RDD的核心逻辑是“局部可比”，因此只需聚焦于断点附近的样本（带宽范围内的样本），而非全部样本——这就导致RDD的估计结果高度依赖断点附近的样本质量和样本量。在实操中，若断点附近的样本量不足，则会导致估计结果的标准误过大、显著性降低，甚至出现系数符号异常的情况，影响结果的可靠性；若断点附近的样本存在异常值（如某一企业的出口额异常高，且刚好在断点附近），则会严重干扰估计结果，导致偏差；若断点附近的样本存在选择性缺失，则会导致样本代表性不足，进一步影响估计结果的可靠性。

3. 无法识别异质性处理效应，适用范围受限

RDD的核心是估计“平均处理效应（ATE）”——即干预措施对断点附近所有观测对象的平均影响，但无法识别“异质性处理效应”——即干预措施对不同特征观测对象的差异化影响（如干预措施对男性和女性的影响是否不同、对大企业和小企业的影响是否不同、对高收入群体和低收入群体的影响是否不同）。

RDD由于只聚焦于断点附近的样本，且假设断点附近的样本具有同质性（除干预外，其他特征一致），因此无法识别异质性处理效应——即使强行进行分组估计，也会因为每组的样本量不足，导致结果不可靠。这一局限性使得RDD在需要分析异质性处理效应的研究场景中，适用性受限，往往需要结合其他方法（如DID、OLS）进行补充分析。

4. 带宽选择具有主观性，可能影响结果稳定性

带宽是RDD估计中的关键参数，直接影响估计结果的稳定性——但带宽的选择往往具有一定的主观性，即使采用数据驱动型带宽选择方法，也无法完全消除主观性，不同的带宽选择可能会得到不同的估计结果，甚至出现系数符号相反的情况。

此外，不同的估计方法（如局部线性回归、局部二次回归）对带宽的敏感度不同，进一步增加了带宽选择的复杂性——因此，在实操中，研究者需要通过“改变带宽检验”进行稳健性检验，若不同带宽下的估计结果无明显变化，说明结果稳健；若变化较大，则需要重新调整带宽，或采用其他稳健性检验方法，降低带宽选择主观性带来的影响。

5. 难以处理多维度干预和溢出效应，局限性明显

RDD适用于“单一干预、单一断点”的场景，若研究场景中存在多维度干预（如同一时间实施多项政策，且均存在断点），则RDD难以区分不同干预措施的因果效应，会导致估计结果偏差——例如，同一时间实施最低工资标准上调和税收减免两项政策，且两项政策都存在明确的断点，此时采用RDD进行估计，无法区分是最低工资标准上调还是税收减免对结果变量产生影响，估计结果无法反映单一政策的实际效应。

三、RDD在科研中的应用场景

断点回归法在经管科研中的应用场景极为广泛，其核心魅力在于能够利用现实世界中普遍存在的“规则断点”来构造准自然实验，从而识别出变量间的因果关系。在经管领域，但凡存在明确的分配规则——即某个关键变量（驱动变量）是否超过某一阈值决定了政策干预或处理状态的分配——RDD便有了用武之地。

在教育经济学领域，分数是最常见的驱动变量。研究者利用重点中学、大学的录取分数线作为断点，通过比较刚好过线被录取的学生（处理组）与刚好落榜的学生（对照组）在未来的学业成就、收入水平乃至健康状况上的差异，来估计“就读优质学校”或“接受高等教育”的因果效应。这类研究有效规避了能力、家庭背景等遗漏变量带来的内生性偏误。

在劳动与健康经济学中，年龄是天然的断点。法定退休年龄（张川川和陈斌开，2014）、最低饮酒年龄、养老金领取起始年龄等政策规定，使得个体在跨越特定年龄节点时，其权利、义务或面临的约束发生突变。例如，研究者可以考察退休对个人消费、健康以及家庭内部照料的因果影响；或者评估医保报销起付线对居民医疗消费行为的激励效应。这些研究为社会保障政策的优化提供了关键依据。

在公共经济学与环境经济学领域，地理边界和行政区域划分提供了丰富的断点。例如，利用是否位于环保重点区域边界内外，可以评估环境规制对企业生产率或污染排放的因果效应；利用是否处于某项税收优惠政策的试点边界，可以考察减税对企业投资或就业的真实拉动作用。这类地理断点设计能够有效控制地理位置本身带来的混杂因素。

文献引用

[1] 张川川,陈斌开.“社会养老”能否替代“家庭养老”?——来自中国新型农村社会养老保险的证据[J].经济研究,2014,49(11):102-115.

[2] 余静文,王春超.新“拟随机实验”方法的兴起——断点回归及其在经济学中的应用[J].经济学动态,2011,(02):125-131.

[3] Hahn J, Todd P, Van der Klaauw W. Identification and estimation of treatment effects with a regression-discontinuity design[J]. Econometrica, 2001, 69(1): 201-209.

[4] Thistlethwaite D L, Campbell D T. Regression-discontinuity analysis: An alternative to the ex post facto experiment[J]. Journal of Educational psychology, 1960, 51(6): 309.

【关闭窗口】