在科研中,因果推断是核心痛点——我们总在追问“政策实施是否真的促进了经济增长?”“教育投入能否显著提升收入水平?”,但观测数据中的内生性问题,往往让简单的回归分析难以得出可靠结论。
双重差分法(DID)、工具变量法(IV)虽为常用的因果推断工具,但前者依赖严格的平行趋势假设,后者难以找到满足外生性与排他性的工具变量,在很多场景下适用性受限。而断点回归法(Regression Discontinuity Design,以下简称RDD),凭借“接近自然实验”的核心优势,无需严苛假设,就能在较弱条件下实现可靠的因果推断(余静文和王春超,2011),成为近年来经管科研、公共政策评估等领域的“热门方法”,更是顶刊论文中高频出现的实证策略之一。本文将从基础原理入手,层层拆解RDD的核心逻辑,详解其优劣性。
一、断点回归法(RDD)的核心原理
断点回归法最早由Thistlethwaite和Campbell于1960年提出,最初用于研究奖学金对学生未来成绩的影响——当学生成绩达到某一特定门槛时,将获得奖学金资助,而成绩在门槛附近两边的学生具有极强的可比性,因此可以以成绩门槛作为断点,识别奖学金与学生后续成绩之间的因果关系。但该方法的适用性在当时未被充分重视,直到2001年Hahn等人对RDD的识别条件、估计方法和统计推断进行了系统的理论证明,RDD才正式成为因果推断领域的核心工具,广泛应用于经济学、政治学、社会学等多个学科。
1. RDD的核心构成要素
(1)驱动变量
驱动变量又称“分配变量”“运行变量”,是决定观测对象是否接受干预的核心连续变量,也是RDD的“灵魂”。其核心特征是连续可测,且在断点附近的取值是随机波动的,无法被观测对象精确操纵——这是保证断点附近两组对象具有可比性的关键前提。
常见的驱动变量分为两类:一类是“数值型变量”,如考试分数、收入水平、企业规模、CD4细胞计数(医学领域)等;另一类是“时间型变量”,如政策实施时间、事件发生时间等(此类变量对应的是时间断点回归,后文会详细介绍)。
(2)断点
断点是驱动变量的一个特定临界值,也是划分处理组和对照组的“分界线”——当驱动变量的取值超过该临界值时,观测对象进入处理组(接受干预);当驱动变量的取值低于该临界值时,观测对象进入对照组(未接受干预)(精确断点场景),或接受干预的概率发生显著跳跃(模糊断点场景)。
断点的来源主要有两种:一是“天然断点”,由政策规定、制度设计或客观规律决定,具有外生性,这也是RDD最理想的断点来源。例如:高考录取分数线(驱动变量:高考分数,断点:录取分数线,处理组:被录取学生,对照组:未被录取学生);排污费政策中的污染物排放阈值(驱动变量:污染物排放量,断点:排放阈值,处理组:排放量超标、需缴纳更高排污费的企业,对照组:排放量达标、缴纳常规排污费的企业);退休政策中的年龄阈值(驱动变量:年龄,断点:60岁,处理组:退休人员,对照组:在职人员)。
二是“人为设定断点”,由研究者根据研究问题和数据特征,在合理范围内设定断点(需充分论证设定的合理性,避免内生性质疑)。例如:研究“最低工资标准对企业就业的影响”,若某地区最低工资标准为1800元/月,研究者可将“企业平均工资”作为驱动变量,将1800元作为断点,划分处理组(平均工资低于1800元、需上调工资的企业)和对照组(平均工资高于1800元、无需上调工资的企业)。
(3)结果变量
结果变量是研究者关注的、受干预措施影响的变量,也是RDD最终要解释的“因变量”。在经管科研中,结果变量的选择需与研究问题高度相关,且可测、可量化。例如:研究奖学金对学生成绩的影响,结果变量是“学生后续的考试成绩”;研究排污费上调对企业出口的影响,结果变量是“企业出口额、出口强度”;研究教育投入对收入的影响,结果变量是“个人年收入、收入增长率”;研究环保政策对企业生产率的影响,结果变量是“企业全要素生产率、人均产出”。
2. RDD的核心假设
断点回归法之所以能实现可靠的因果推断,核心是基于三个较弱的假设——相较于双重差分法的“平行趋势假设”、工具变量法的“外生性假设”,RDD的假设更易于检验,也更贴近现实,这也是其核心优势之一。三个核心假设缺一不可,若假设不成立,RDD的估计结果将失去可靠性。
(1)连续性假设
这是RDD最核心、最关键的假设,其含义是:在断点附近,除了干预变量(是否接受干预)之外,所有影响结果变量的其他混杂因素(可观测和不可观测的),都随着驱动变量的变化而平滑连续,不存在跳跃。换句话说,断点附近的处理组和对照组,在所有混杂因素上具有可比性,唯一的差异就是“是否接受干预”。
仍以“60分断点”为例:连续性假设意味着,在60分附近(如59分和61分),学生的学习能力、家庭背景、学习态度等所有影响后续成绩的因素,都没有显著差异——59分的学生和61分的学生,本质上是“几乎一样”的人,只是因为1分的差距,被划分到了不同的组(补课组和免作业组)。因此,两组后续的成绩差异,只能归因于“补课”这一干预,而非其他因素。
(2)断点假设
断点假设的含义是:干预变量(是否接受干预)在断点处存在显著的非连续性——即驱动变量跨越断点时,观测对象接受干预的概率会发生突然跳跃(精确断点中跳跃幅度为1,模糊断点中跳跃幅度为某一正数)。这是RDD能够划分处理组和对照组的前提,若干预变量在断点处连续,就无法区分处理组和对照组,也就无法识别因果效应。
(3)局部随机化假设
局部随机化假设是对连续性假设的补充,其含义是:在断点附近的一个微小邻域内,观测对象的驱动变量取值是随机的,即观测对象无法精确控制自己的驱动变量,使其刚好跨越断点。这一假设可以避免“人为操纵驱动变量”导致的选择性偏差——如果观测对象能够精准控制驱动变量(如学生刻意考60分),那么断点附近的两组对象就不再具有可比性(刻意考60分的学生,其学习态度可能与其他学生不同),从而导致估计结果偏差。
二、断点回归法(RDD)的优缺点
作为一种准实验方法,断点回归法的核心优势在于“接近自然实验”,能在较弱假设下实现可靠的因果推断,但其也存在自身的局限性,适用场景受到一定限制。对于研究者而言,清晰认识RDD的优缺点,才能合理选择实证方法,避免滥用RDD导致的论文质量问题——既不盲目追捧,也不忽视其核心价值。
1. RDD的核心优势
(1)因果推断更可靠,内生性问题更易解决
内生性问题(选择性偏差、遗漏变量、反向因果)是经管实证研究的“头号难题”——普通最小二乘法(OLS)由于无法排除混杂因素的干扰,往往会高估或低估因果效应;工具变量法(IV)的核心难点是“找到满足外生性和排他性的工具变量”,现实中很难找到理想的工具变量;双重差分法(DID)则依赖严格的“平行趋势假设”,若处理组和对照组的初始趋势不一致,估计结果就会出现偏差。
而RDD通过“局部可比”的逻辑,巧妙规避了内生性问题:断点附近的处理组和对照组,除了“是否接受干预”之外,其他混杂因素(可观测和不可观测的)都具有可比性(连续性假设),因此两组的结果差异只能归因于干预本身,而非其他混杂因素。同时,RDD的核心假设(连续性假设、断点假设、局部随机化假设)都可以通过实证方法检验(如协变量连续性检验、密度检验、安慰剂检验),一旦假设成立,因果推断的可靠性就会显著高于OLS、DID等方法,甚至接近随机对照实验(RCT)的效果——RCT是因果推断的“金标准”,但由于成本高、伦理限制,在经管科研中难以实施,而RDD作为准实验方法,其调整混杂因素的能力仅次于RCT,是现实中最理想的因果推断工具之一。
(2)假设更弱、更贴近现实,适用性更强
与DID、IV相比,RDD的核心假设更弱、更贴近现实,且易于检验,这也是其适用范围广泛的重要原因。如DID的核心假设是“平行趋势假设”——处理组和对照组在干预实施前,结果变量的变化趋势一致,这一假设在现实中往往难以满足(如不同地区的经济发展水平、不同企业的经营状况,初始趋势可能存在显著差异),且平行趋势假设的检验方法相对有限,难以充分验证;IV的核心假设是“外生性假设”和“排他性假设”——工具变量与内生解释变量相关,且与误差项不相关,工具变量只能通过内生解释变量影响结果变量,这两个假设几乎无法通过实证方法直接检验,只能通过理论论证,主观性较强。
而RDD的三个核心假设(连续性假设、断点假设、局部随机化假设),都可以通过具体的实证方法检验(如断点图、密度检验、协变量连续性检验、安慰剂检验),检验结果客观、可重复,无需过多的理论论证。即使假设存在轻微偏差,也可以通过调整带宽、采用稳健性检验方法(如甜甜圈RDD)进行修正,降低偏差对估计结果的影响。因此,在很多DID、IV无法适用的场景中,RDD仍然可以发挥作用。
(3)可用于政策评估,实践价值突出
经管科研的核心目标之一,是为公共政策制定、企业决策提供理论支撑和实证依据,而RDD恰好是政策评估的“理想工具”——现实中很多公共政策、企业干预措施,都存在明确的“断点规则”(如最低工资标准、排污费政策、扶贫政策、教育政策等),这些规则天然适合采用RDD进行评估,能够精准识别政策的实际效果,为政策调整、优化提供可靠依据。
(4)扩展形式丰富,适配更多研究场景
随着RDD理论的不断发展,其扩展形式越来越丰富,能够适配更多复杂的经管科研场景,解决传统RDD无法解决的问题。常用的扩展形式包括:
如时间断点回归(RDiT):以时间作为驱动变量,干预实施时间作为断点,适用于所有观测对象在同一时间点接受干预的场景,能够识别特定时间点实施的政策或事件的因果效应——由于缺乏处理状态在时间维度上的变化,传统RDD和DID往往难以适用,而RDiT通过时间作为驱动变量,假设影响结果变量的不可观测因素在时间上平滑变化,能够有效解决这一问题,适用于政策全面实施、无地区差异的场景(如全国统一实施的税收政策、社保政策);
地理断点回归:以地理距离作为驱动变量,政策边界作为断点,适用于政策在地理边界两侧实施不同干预的场景(如相邻两个省份实施不同的排污费政策、最低工资标准),能够有效排除地区差异的干扰,精准识别政策效应。
2. RDD的局限性
1. 对断点和驱动变量的要求极高,适用场景有限
RDD的核心前提是“存在明确的驱动变量和断点”,且驱动变量需满足“连续可测、不可精确操纵”的条件——这一要求在很多科研场景中难以满足,导致RDD的适用范围受到限制。此外,若驱动变量存在测量误差,或观测对象能够精确操纵驱动变量,则RDD的核心假设(局部随机化假设)不成立,估计结果会出现严重偏差,此时也无法采用RDD——即使强行采用,估计结果也不具有可靠性,难以通过论文评审。
2. 依赖断点附近的样本,样本量不足可能影响结果可靠性
RDD的核心逻辑是“局部可比”,因此只需聚焦于断点附近的样本(带宽范围内的样本),而非全部样本——这就导致RDD的估计结果高度依赖断点附近的样本质量和样本量。在实操中,若断点附近的样本量不足,则会导致估计结果的标准误过大、显著性降低,甚至出现系数符号异常的情况,影响结果的可靠性;若断点附近的样本存在异常值(如某一企业的出口额异常高,且刚好在断点附近),则会严重干扰估计结果,导致偏差;若断点附近的样本存在选择性缺失,则会导致样本代表性不足,进一步影响估计结果的可靠性。
3. 无法识别异质性处理效应,适用范围受限
RDD的核心是估计“平均处理效应(ATE)”——即干预措施对断点附近所有观测对象的平均影响,但无法识别“异质性处理效应”——即干预措施对不同特征观测对象的差异化影响(如干预措施对男性和女性的影响是否不同、对大企业和小企业的影响是否不同、对高收入群体和低收入群体的影响是否不同)。
RDD由于只聚焦于断点附近的样本,且假设断点附近的样本具有同质性(除干预外,其他特征一致),因此无法识别异质性处理效应——即使强行进行分组估计,也会因为每组的样本量不足,导致结果不可靠。这一局限性使得RDD在需要分析异质性处理效应的研究场景中,适用性受限,往往需要结合其他方法(如DID、OLS)进行补充分析。
4. 带宽选择具有主观性,可能影响结果稳定性
带宽是RDD估计中的关键参数,直接影响估计结果的稳定性——但带宽的选择往往具有一定的主观性,即使采用数据驱动型带宽选择方法,也无法完全消除主观性,不同的带宽选择可能会得到不同的估计结果,甚至出现系数符号相反的情况。
此外,不同的估计方法(如局部线性回归、局部二次回归)对带宽的敏感度不同,进一步增加了带宽选择的复杂性——因此,在实操中,研究者需要通过“改变带宽检验”进行稳健性检验,若不同带宽下的估计结果无明显变化,说明结果稳健;若变化较大,则需要重新调整带宽,或采用其他稳健性检验方法,降低带宽选择主观性带来的影响。
5. 难以处理多维度干预和溢出效应,局限性明显
RDD适用于“单一干预、单一断点”的场景,若研究场景中存在多维度干预(如同一时间实施多项政策,且均存在断点),则RDD难以区分不同干预措施的因果效应,会导致估计结果偏差——例如,同一时间实施最低工资标准上调和税收减免两项政策,且两项政策都存在明确的断点,此时采用RDD进行估计,无法区分是最低工资标准上调还是税收减免对结果变量产生影响,估计结果无法反映单一政策的实际效应。
三、RDD在科研中的应用场景
断点回归法在经管科研中的应用场景极为广泛,其核心魅力在于能够利用现实世界中普遍存在的“规则断点”来构造准自然实验,从而识别出变量间的因果关系。在经管领域,但凡存在明确的分配规则——即某个关键变量(驱动变量)是否超过某一阈值决定了政策干预或处理状态的分配——RDD便有了用武之地。
在教育经济学领域,分数是最常见的驱动变量。研究者利用重点中学、大学的录取分数线作为断点,通过比较刚好过线被录取的学生(处理组)与刚好落榜的学生(对照组)在未来的学业成就、收入水平乃至健康状况上的差异,来估计“就读优质学校”或“接受高等教育”的因果效应。这类研究有效规避了能力、家庭背景等遗漏变量带来的内生性偏误。
在劳动与健康经济学中,年龄是天然的断点。法定退休年龄(张川川和陈斌开,2014)、最低饮酒年龄、养老金领取起始年龄等政策规定,使得个体在跨越特定年龄节点时,其权利、义务或面临的约束发生突变。例如,研究者可以考察退休对个人消费、健康以及家庭内部照料的因果影响;或者评估医保报销起付线对居民医疗消费行为的激励效应。这些研究为社会保障政策的优化提供了关键依据。
在公共经济学与环境经济学领域,地理边界和行政区域划分提供了丰富的断点。例如,利用是否位于环保重点区域边界内外,可以评估环境规制对企业生产率或污染排放的因果效应;利用是否处于某项税收优惠政策的试点边界,可以考察减税对企业投资或就业的真实拉动作用。这类地理断点设计能够有效控制地理位置本身带来的混杂因素。
文献引用
[1] 张川川,陈斌开.“社会养老”能否替代“家庭养老”?——来自中国新型农村社会养老保险的证据[J].经济研究,2014,49(11):102-115.
[2] 余静文,王春超.新“拟随机实验”方法的兴起——断点回归及其在经济学中的应用[J].经济学动态,2011,(02):125-131.
[3] Hahn J, Todd P, Van der Klaauw W. Identification and estimation of treatment effects with a regression-discontinuity design[J]. Econometrica, 2001, 69(1): 201-209.
[4] Thistlethwaite D L, Campbell D T. Regression-discontinuity analysis: An alternative to the ex post facto experiment[J]. Journal of Educational psychology, 1960, 51(6): 309.