企业破产预测是金融与会计领域的经典难题。过去六十年,研究者从传统的判别分析一路走到机器学习,但始终面临两大困境:一是财务数据的滞后性与易操纵性,二是单一模型或同质化集成(如单纯使用XGBoost)的过拟合与泛化能力不足。
当Merton的期权定价理论暗示“市场信息才是破产预测的核心”,我们却缺乏一个能够处理海量资产定价因子、并融合多种算法优势的统一框架。如何破局?
最新研究提出了一种创新的两层堆叠式集成模型,不仅将四种异质算法(Boosted Tree、Random Forest、KNN、NN)融合于一体,还首次系统性地纳入了326个资产定价因子。实证表明,该模型在1-3年的预测期内全面超越XGBoost等主流基准,并揭示了一个关键结论:决定企业破产的核心信息不在财务报表中,而在股票市场的交易数据里。
一、传统破产预测模型的“三重门”
长期以来,破产预测研究被三个核心问题所困扰:
1. 财务比率之困:滞后且易操纵
传统模型高度依赖基于资产负债表的财务比率(如流动比率、资产负债率)。然而,这些数据每年更新一次,严重滞后于企业真实状况,且存在管理层粉饰的可能。Rosner (2003) 的研究证实,濒临破产的企业往往存在激进的盈余管理行为。
2. 统计模型之限:线性与静态假设
早期的判别分析和Logit模型假设变量间存在线性关系,且关系在时间上保持稳定。但企业破产是一个动态、非线性的恶化过程。Coats & Fant (1993) 发现,尤其在较长预测期内,财务比率与破产概率之间呈现出复杂的非线性模式,传统线性模型难以捕捉。
3. 单一模型之弊:过拟合与“偏科”
虽然神经网络(NN)和支持向量机(SVM)等ML模型能捕捉非线性,但单一模型极易过拟合,且各有“偏科”。例如,KNN擅长局部模式,但对噪声敏感;树模型可解释性强,但可能忽略平滑的连续关系。没有哪个单一模型能在所有样本上 consistently 表现最佳。
二、新框架登场:两层堆叠式异质集成模型
为突破上述困境,该研究设计了一个精巧的两层堆叠(Stacking)框架,核心在于“异质算法的多样性”与“混合元学习”的结合。
1. 第一层:异质基学习器 + 三折Bagging
第一层并行训练了四个截然不同的算法:LightGBM/CatBoost(梯度提升树)、随机森林(Bagging代表)、K-近邻(基于距离)、以及神经网络(深度学习)。为保证预测的稳健性并防止过拟合,每个基模型均采用三折Bagging机制:将训练集分为三份,轮流用两份训练、一份预测,最终得到整个训练集上的“测试样本预测”。
2. 第二层:混合元学习器
第一层输出的预测结果(每个样本对应四个预测值)与原始特征数据拼接,构成新的训练集,送入第二层的元模型(同样包含上述四种算法)。这使得元模型不仅能学习“基模型的预测偏好”,还能随时回溯原始信息,避免信息损失。最终输出是各元模型预测的加权平均。
3. 算法多样性是核心优势
相较于同质集成的Boosting(如XGBoost),异质集成通过不同“视角”学习问题:树模型捕捉非线性交互与特征阈值,KNN关注局部邻域相似性,NN拟合复杂连续函数。这种多样性大大降低了所有模型同时出错的概率,从而提升泛化能力。
三、核心发现:市场信息主导破产预测
该研究最大的创新之一是引入了326个资产定价因子,涵盖市场(89个)、事件(35个)、会计(181个)和分析师(21个)四大类。实证结果极具启发性:
1. 市场因子是绝对主力
在模型特征重要性排名中,市场因子贡献了超过75%的预测信息(AUC减少量)。而传统的会计因子贡献不足10%。这意味着,预测破产的最佳信息源不是迟到的财报,而是实时的股票交易数据。
2. 最关键的预测指标是什么?
排名前20的特征全部来自市场因子,主要包括:
下行共动风险(Coskewness):企业与市场的非对称共动性。负的共偏度意味着该企业在市场下跌时跌得更狠,显著增加破产风险。
流动性风险(zerotrade, DolVol):衡量股票交易的连续性与深度。投资者会回避治理差或风险高的公司,导致其股票流动性枯竭,这本身就是预警信号。
波动率(IdioRisk, VolSD):企业特定的异质波动率越高,未来现金流不确定性越大,破产概率越高。
股利支付(DivSeason, DivOmit):根据Merton模型,股利支付直接影响公司资产价值,从而影响违约边界。
3. 会计信息并非无用,而是需要“变化”
虽然传统财务比率未被选入前20,但基于会计数据构建的“事件因子”仍有贡献,尤其是衡量盈利变化趋势的变量,如盈利惊喜(EarningsSurprise) 和盈利持续期(EarningsStreak)。这印证了趋势分析比静态比率更有价值。
四、性能验证:全面碾压XGBoost
研究采用随机分割(70%训练/30%测试)和时序分割(1990-2012训练,2013-2021测试)两种方式,后者更贴近真实投资场景。对比基准包括XGBoost、LightGBM、AdaBoost、CatBoost和单一NN模型。
关键结果(时序分割,1年预测):
召回率(Recall,即正确捕获破产企业比例):集成模型 97.32% vs XGBoost 95.97%
精确率(Precision,即预测破产中正确的比例):集成模型 98.24% vs XGBoost 88.90%
特异性(Specificity,即正确识别健康企业比例):集成模型 98.07% vs XGBoost 95.52%
结论:集成模型不仅找出了更多的破产企业(高召回率),而且误伤健康企业的概率极低(高精确率与特异性)。Wilcoxon符号秩检验证实,这种优势在统计上显著。
五、给研究者的行动指南
若您计划在信贷风险、违约预测等领域应用此类方法,以下几点值得参考:
1. 优先整合市场信息
如果研究对象的股票交易数据可得,应优先纳入流动性、波动率、动量及高阶矩(如协偏度)等市场因子,其预测效力通常远超滞后的财务比率。
2. 采用异质集成而非单兵作战
不必纠结于“XGBoost还是随机森林更好”,不妨尝试Stacking或加权平均融合它们。异质性带来的多样性是对抗过拟合的有效武器。
3. 警惕同质集成的盲区
单纯堆叠同类型模型(如只使用多种树模型)增益有限。真正的价值来自引入基于完全不同数学原理的算法(如树模型 + 神经网络 + 距离模型)。
4. 关注“变化”而非“存量”
若必须使用会计数据,建议构建时间序列变化指标(如盈利变化率、杠杆变化率),而非仅仅使用当期水平值。
5. 模型可解释性不可忽视
虽然集成模型是“黑箱”,但可通过置换特征重要性(Permutation Feature Importance)等方法,识别关键驱动因素。本研究发现下行共动风险的重要性,为理论构建提供了新方向。
六、局限与展望
计算成本:同时训练多个模型,耗时与资源需求远高于单一模型。
可解释性:虽然可计算特征重要性,但决策边界仍难直观理解,需要领域知识辅助判断。
适用范围:资产定价因子仅适用于上市公司。对于非上市公司,该框架可退化为使用财务比率和其他可得数据,但性能有待验证。
未来方向:论文指出,可将该模型扩展至债券市场、宏观状态与审计意见等更广泛的信息源。
文献引用
Cao, Y., Luo, Y., Wei, P., Zhai, J., & Shi, S. (2024). Bankruptcy forecasting—Market information with ensemble model. The British Accounting Review, 101530.