| 联系我们 |
 |
合作经济与科技杂志社
地址:石家庄市建设南大街21号
邮编:050011
电话:0311-86049879 |
|
|
| 财会/审计 |
| 金融业上市公司财务舞弊识别研究 |
| 第764期 作者:□文/刘涵玉 陈 奕 陈 萱 时间:2025/11/1 16:21:30 浏览:42次 |
[提要] 构建基于Stacking异质集成算法的财务舞弊识别模型:初级分类器采用KNN、SVM、XGBoost,次级分类器采用Logistic回归。使用A股金融业上市公司年度财报数据进行验证发现:第一,Stacking异质集成算法识别金融业上市公司财务舞弊的准确率与效率优于单一算法。第二,对于提高金融业上市公司财务舞弊识别模型性能,当舞弊样本数较少时,原始绝对数据与比率相对数据表现近似一致;当舞弊样本数较大时,比率相对数据表现优于原始绝对数据。本研究对构建基于Stacking方法的金融业上市公司财务舞弊识别模型及如何提升模型性能具有一定参考意义。
关键词:金融业上市公司;财务舞弊识别;Stacking异质集成算法
基金项目:国家级大学生创新创业训练计划项目:“基于AI异质集成的金融上市公司财务舞弊识别研究”(202410370097)
中图分类号:F23 文献标识码:A
收录日期:2025年5月12日
党的二十届三中全会审议通过的《中共中央关于进一步全面深化改革 推进中国式现代化的决定》明确了加强对金融业上市公司监管,保障资本市场健康发展的重要经济任务。近年来,我国聚焦上市公司监管的突出问题,采用多种办法清除上市公司财务舞弊现象。但上市公司财务舞弊现象仍时有发生,随着上市公司数量的快速增加,呈现出舞弊手法隐蔽性、舞弊动机多样性、舞弊环节复杂性的特征,令监管部门防不胜防。
目前,机器学习识别上市公司财务舞弊已被证实是识别财务舞弊的新型手段,为监管人员进行识别工作提供了有利支持。在现有机器学习技术中,集成学习通过集成多个单一分类器,常可获得更优越的性能,其中Bagging、Boosting和Stacking是最常用的集成方法,背后数学思想的不同使它们在算法思想和算法应用上产生了差异。Bagging和Boosting是由多个相同单一分类器组成的同质集成方法,Stacking集成方法则更为强大,由多个不同单一分类器组成。有实证研究发现,Stacking集成方法比其他同质集成方法在预测精度上更具优势。但由于技术复杂程度的问题,Bagging和Boosting这两种同质集成方法被多次使用,相比之下,Stacking这种异质集成方法被使用的次数较少。一方面,现有研究采用的数据大多来源于全行业或制造业,前者模型的针对性不强,识别结果的可信度有待提升,后者模型的针对性较强,深究后发现制造业庞大的上市公司数量是其被选择的原因,金融业等同样重要,但上市公司数量较少的行业往往被忽视。另一方面,现有识别财务舞弊的人工智能模型大多是基于单一分类器的模型或是基于Boosting、Bagging方法的同质集成模型,Stacking异质集成因技术复杂度较高,其泛化能力优、设计方式活、数据适应性强的优点往往被忽视。
本文转换视角,选择构建针对金融业上市公司的财务舞弊识别模型,探究Stacking异质集成算法与单一算法哪种模型的性能更优、应用性更强,为加强对金融业上市公司监管,保障资本市场健康发展提供参考。同时,探究模型设计过程中的衍生问题:财务报表原始绝对数据与财务指标比率相对数据哪类数据更宜于提高模型识别的准确率和效率。
一、研究设计
(一)样本选取。根据证监会发布的《上市公司行业分类指引》(2012年修订),选中所有在上证、深证和北证A股上市的金融业公司,得到共132家公司,选择这些公司在2013年12月31日至2023年12月31日期间发布的年度合并财务报表中的资产负债表和利润表作为样本,合并某一家公司某一年的资产负债表和利润表后,就是本文定义的一份财务报表原始绝对数据样本。根据本文研究需要,将财务报表原始绝对数据样本转化为信息含量对等的财务指标比率相对数据样本。查询CSMAR数据库后分别得到了1,142份财务报表样本和1,304份财务指标样本。
财务舞弊识别模型构建的目的是按照预设的某种违规行为进行分类任务,正确识别财务报表中的正常样本和舞弊样本。在考虑CSMAR数据库归纳的16种违规行为和本文研究需要后,分别选择虚构利润、虚列资产,虚构利润、虚列资产、擅自改变资金用途、占用公司资产,虚构利润、虚列资产、虚假记载作为划分1,142份、1,304份样本的条件,得到6个正常样本与舞弊样本的组合,属于财务报表样本组合的比例分别为1133∶9、1110∶32、1058∶84,属于财务指标样本组合的比例分别为1294∶10、1271∶33、1219∶85。
6个样本组合的正常样本数量都远大于舞弊样本数量,因此本文采用欠采样方法来平衡样本组合里数据分布的种类,使每个样本组正负样本的数量比值为1∶1,再将各组正负样本按4∶1划分为训练集和测试集,便于后期构建模型。
为了明确分析模型差异与数据类型差异给模型识别准确率与效率带来的影响,以“数据类型-舞弊样本数量”的方式对6个样本组合命名,分别得到“原始-9个” “原始-32个” “原始-84个” “比率-10个” “比率-33个”和“比率-85个”。
(二)数据处理
1、提取原始绝对数据指标。对于1,142份财务报表样本组成的数据集,删除空值超过150的列,剩余37个会计项目及其数据,计算得到空值比率为可接受的2.39%,将其中的空值转化为“0”。对上述数据进行最大最小值归一化,最后就得到了用于后续构建模型的原始绝对数据。
2、提取比率相对数据指标。综合考虑之后,本文将资产负债表、利润表总计208个会计项目转化为了反映盈利能力、经营能力、偿债能力和发展能力的38个财务指标。对于1,304份财务指标样本组成的数据集,删除空值超过170的列,剩余17个财务指标及其数据,计算得到空值比率为可接受的3.88%,将其中的空值转化为“0”。对上述数据进行最大最小值归一化,最后就得到了用于后续构建模型的比率相对数据。
(三)评估方法。引入混淆矩阵对各个初级分类器和集成模型识别性能进行评价。对于本文研究的二分类问题,混淆矩阵包括真阳性、假阳性、真阴性和假阴性四种情况。选择准确率、精确度、召回率和F值四个指标对模型的识别性能进行评价,使用宏平均输出评分,以期得到全面、公正的模型评估结果。
二、Stacking异质集成模型构建
本文在构建初级分类器时仅对某些重要超参数设置一个区间,采用超参数搜索的方法让各个分类器根据所训练样本组合的数据特征自动寻找最优超参数。Logistic回归的形式简单且易于理解,故将其作为Stacking集成模型的次级分类器,所有超参数保持默认值。以三个初级分类器的训练集结果和测试集结果传入次级分类器,形成的分类结果就是Stacking异质集成模型的最终预测结果,其中Stacking内置会对训练集进行5折交叉验证,有效降低本文因样本量较小而可能出现的过拟合风险。(图1)
三、结果分析
遵循控制变量的思想,将6个样本组两两配对,研究当某两个样本组舞弊样本数近似一致时,哪类数据更宜于提高金融业上市公司财务舞弊识别模型的准确率和效率。
(一)“原始-9个”组与“比率-10个”组。选择虚构利润、虚列资产作为划分正负样本的依据后,分别得到了原始绝对数据下的9个舞弊样本和比率相对数据下的10个舞弊样本,二者相差1个舞弊样本的原因是相较于财务指标,财务报表中缺少ZT证券在2016年的数据,本文忽略这个舞弊样本的影响,下同。分别输入“原始-9个”样本组、“比率-10个”样本组的数据构建模型后输出评分。分析图2发现,不论是使用原始绝对数据还是比率相对数据,Stacking集成算法的得分均显著高于各个单一分类器的得分,说明Stacking集成算法能更准确识别金融业上市公司是否发生上述违规行为。此外,在Stacking集成算法的基础上,对于提高金融业上市公司财务舞弊识别模型性能,两类数据的表现近似一致。(图2)
(二)“原始-32个”组与“比率-33个”组。选择虚构利润、虚列资产、擅自改变资金用途、占用公司资产作为划分正负样本的依据后,分别输入“原始-32个”样本组、“比率-33个”样本组的数据构建模型后输出评分。分析图3发现,Stacking集成算法较各个单一分类器依旧具有明显优势,说明Stacking集成算法能更准确识别金融业上市公司是否发生上述违规行为。在此基础上,对于提高金融业上市公司财务舞弊识别模型性能,两类数据的表现也依旧近似一致。(图3)
(三)“原始-84个”组与“比率-85个”组。选择虚构利润、虚列资产、虚假记载作为划分正负样本的依据,分别输入“原始-84个”样本组、“比率-85个”样本组数据构建模型后输出评分。分析图4发现,Stacking集成算法较各个单一分类器依旧具有优势,说明Stacking集成算法能更准确地识别金融业上市公司是否发生上述违规行为。在此基础上,对于提高金融业上市公司财务舞弊识别模型性能,两类数据的表现异于前文。(图4)
从图4可以看到,“原始-84个”样本组对应的Stacking集成算法的准确率为79.42%、精确度为78.82%、召回率为80.40%、F值为78.96%;“比率-85个”样本组对应的Stacking集成算法的准确率为82.35%、精确度为82.78%、召回率为81.40%、F值为81.79%。二者的得分以80%为界限出现明显差异,前者整体小于后者,因此,对于提高金融业上市公司财务舞弊识别模型性能,比率相对数据的表现优于原始绝对数据。
四、结论及启示
(一)结论。本文以KNN、SVM、XGBoost作初级分类器,以Logistic回归作次级分类器,构建用于识别金融业上市公司财务舞弊的Stacking异质集成模型,输入被3组违规行为分成6个样本组的2013~2023年期间A股金融业上市公司的财务报表样本和财务指标样本,输出6个样本组对应的不同模型的得分,对比后得出以下结论:(1)Stacking异质集成算法识别金融业上市公司财务舞弊的准确率与效率优于单一算法。(2)在Stacking集成的基础上,对于提高金融业上市公司财务舞弊识别模型性能,当舞弊样本数较少时,原始绝对数据与比率相对数据的表现近似一致;当舞弊样本数较大时,比率相对数据的表现优于原始绝对数据。
(二)启示。为了充分利用机器学习技术高效、便捷的优点,除构建全行业上市公司财务舞弊识别模型、制造业上市公司财务舞弊识别模型之外,还可以考虑构建用于像金融业这类上市公司数量较少行业的财务舞弊识别模型,以期实现资本市场事后监管智慧化,将可能出现的金融危机扼杀在摇篮里,保障我国资本市场的健康发展,维护证券市场秩序,保护各方利益相关者的合法权益。
(作者单位:安徽师范大学)
主要参考文献:
[1]周志华.机器学习[M].北京:清华大学出版社,2016.
[2]周星,丁立新,万润泽,等.分类器集成算法研究[J].武汉大学学报(理学版),2015.61(06).
[3]Wang G.,J.Hao,J.Ma,H.Jiang.A Comparative Assessment of Ensemble Learning for Credit Scoring[J].Expert Systems with Applications,2011(38).
[4]苗卓衍.基于集成模型的制造业上市公司财报失真检测研究[D].太原:中北大学,2024.
|
|
|
|