基于数据挖掘的财务预警研究-

首页

期刊简介

新版网站改版了，欢迎提出建议。

访客留言

邮箱：
留言：	留言内容不能

联系我们

合作经济与科技杂志社

地址：石家庄市建设南大街21号

邮编：050011

电话：0311-86049879

友情链接

·中国知网	·万方数据
·北京超星	·重庆维普

财会/审计

基于数据挖掘的财务预警研究

第731期　作者：□文/杨　卓　时间：2024/6/16 13:37:04　浏览：2338次

　　［提要］　上市公司的财务预警工作直接关系着对财务风险的控制效果和公司自身的整体发展。近年来，在经济下行压力加大的整体形势下，部分上市公司难以准确分析和把控复杂多变的内外部环境，从而导致自身决策失当，财务风险增加，不利于保障公司的稳定经营。因此，采用恰当科学的方法对公司可能出现的财务风险做出及时预警，进而做好应对措施，已成为当前上市公司在经营发展过程中需要解决的关键问题。基于此，本文基于数据挖掘对上市公司进行财务预警研究，并对三种模型的预测效果进行对比，分别是神经网络、决策树和Logistic回归。以便提高上市公司财务预警效率效果，使其对财务风险做出及时响应，进而提高公司对财务风险的应对能力，并提供有价值的参考意见。
关键词：数据挖掘；财务预警；财务风险
中图分类号：F23　文献标识码：A
收录日期：2023年10月25日
一、相关概念
（一）财务风险。财务风险主要是企业客观存在的财务风险，企业由于各种各样没法控制的因素造成了损失，虽然财务风险不可能完全消除，但是可以用一些方法控制财务风险，尽量降低财务风险对企业的负面影响。
（二）财务预警。财务预警是指对企业当前的各类财务与非财务数据进行挖掘和分析，在这些数据中选出可以反映企业整体经营状况的指标，通过对这些指标进行综合评价，使得企业财务风险可以被有效识别和预测。通过开展科学有效的财务预警工作，企业能够及时识别当前经营发展过程中存在的财务风险，了解自身财务状况，并采取相关措施降低财务风险发生概率。
（三）数据挖掘。数据挖掘，即利用计算机和统计学相关技术，从海量的数据中检索对研究内容或相关决策具有一定支持的数据信息的过程。数据挖掘的对象涵盖了所有类型的数据源，包括结构化、半结构化和异构的数据，目标数据库也包括了关系数据库和数据仓库等多种类型。基于数据挖掘的信息或知识，然后通过归纳得出相关数据，最终的数据信息常常在决策支持、信息管理以及查询优化和数据库维护等方面有很大作用。
数据挖掘需要模型，有五种常用方法，分别是神经网络法、决策树算法、模糊集法、遗传算法、粗集算法。
基于数据挖掘的建模主要分为六步：一是定义问题，即定义所需查找的数据和解决的业务问题；二是构建数据挖掘库，通过数据的找寻、整合，然后进行数据质量的评估，数据挖掘库的构建就完成了；三是数据分析与描述，数据分析是找出对将进行预测影响力最大的数据，然后完成数据准备工作；四是模型构建，需要对不同模型的应用效果予以综合考量，通过开展反复的模型训练与测试，确定出最优模型；五是模型评价，对基于模型的数据挖掘结果以及模型本身的价值进行评价；六是实施，模型构建与评价结束后，应将其应用于对目标数据的挖掘当中。本文对数据挖掘在企业财务预警中应用的研究突出体现的是基于模型的财务风险预测。
二、财务预警指标选取与样本来源
（一）指标选取原则。对上市公司财务预警的指标选取应遵循以下几点原则：（1）易得性原则。指标应该可以从数据库或者是企业的财务报表中得到，降低指标选取难度和财务预警工作的复杂性。（2）真实性原则。指标都必须是真实存在的，数据必须是可以真实反映出企业财务状况。（3）可比性原则。对任意时期的任意公司都可以进行比较。（4）系统性原则。关于上市公司财务预警的各类指标不应该是分散和独立的，而应兼顾各类指标的内在关联，这样指标就可以综合反映出公司的经营状况。（5）科学性原则。选取的各种指标都应该代表性比较强，可以使研究人员以及公司各利益相关主体通过少量指标尽可能多地了解公司的财务状况。
（二）财务指标选取。财务预警指标体系最重要的构成是财务指标，因为企业的财务状况都在财务指标中反映。财务指标主要选取了四个方面，如表1所示。（表1）
（三）非财务指标选取。非财务指标是财务预警指标体系的核心的重要补充，主要是从公司治理的角度来确定各类指标，主要有三部分，分别是治理结构、股权结构和审计意见。
1、治理结构。主要是指公司所有者对公司经营者的一种监督，反映了公司内部管理的特点。本文主要选取了三个二级指标：独立董事人数、高管人数和监事人数。
2、股权结构。股权结构是指各股权人所持有的股份/公司总股份，本文选取了两个二级指标，股权集中度：企业持股比例在前五的股东；股权制衡度：企业持股比例在第二到第五的总和/控股股东持股比例（Z值）。
3、审计意见。审计意见是指审计人员对企业财务报告审计结果评价。本文选取了两个审计意见衡量指标，分别是标准无保留意见（取值为1）与其他（取值为2）。
根据上述对上市公司各个财务预警指标的分析，得到如表2所示的上市公司财务预警指标体系，相关指标的计算方式已在上文对指标进行介绍时予以说明。（表2）
（四）研究样本。本文选取的研究样本主要为在A股上市的160家ST与非ST公司。其中，80家是2017～2019年第一次被ST的上市公司，再去掉5家由于数据残缺或者金融类的上市公司，最终ST样本有75家公司，2017年是15家、2018年是25家、2019年是35家。非ST公司与ST公司在各个方面的选取原则都一致，公司数量同样为75家，2017年、2018年和2019年的非ST样本公司数量同样为15家、25家和35家。在样本数据的确定与选择方面，本文假设ST公司被特别处理的年份为T，那么（T-1）年则表示被处理的前一年，（T-2）年则表示被处理的前两年，相关数据来自Wind数据库与Csmar数据库。
（五）显著性检验。进行显著性检验，对上述财务预警指标体系先确定出各个变量对财务预警是否有影响。对19个变量进行正态分布检验，有两个结果：如果满足正态分布，则对变量进行独立样本T检验；如果不满足正态分布，则用M-W（U）非参数检验，对各类财务指标是否对财务预警有影响的确定方法是判断P值（是否＜0.05）。
首先，对（T-2）年的财务预警指标进行正态分布检验后，检验结果是有两个指标满足正态分布，则对流动比率和股权集中度进行独立样本T检验，结果如表3所示。（表3）
根据表3，股权集中度检验结果并不显著，只有流动比率通过了T检验，故将其作为财务预警变量予以保留。对于其他非正态分布变量，进行M-W（U）非参数检验，本文直接给出通过显著性检验的指标，如表4二级指标所示，通过显著性检验的指标共11个，各变量平均值如表4所示。（表4）
根据表4，（T-2）年非ST公司财务状况比ST公司的财务状况好。此外，ST公司的审计意见更倾向于非标准无保留意见，进一步表明ST公司的财务状况不容乐观。
其次，对样本（T-1）年的财务预警指标进行正态分布检验后，仅有一个指标满足正态分布，则对股权集中制进行独立样本T检验，结果如表5所示。（表5）
根据表5，股权集中度检验结果并不显著。对于其他非正态分布变量，进行M-W（U）非参数检验，本文直接给出通过显著性检验的指标，如表6二级指标所示，通过显著性检验的指标共12个，各变量平均值如表6所示。（表6）
根据表6，（T-1）年非ST公司财务状况要明显优于ST公司。此外，ST公司的审计意见更倾向于非标准无保留意见，进一步表明ST公司的财务状况不容乐观。
三、基于数据挖掘的财务预警模型指标筛选有效性
（一）神经网络财务预警模型预测。利用因财务问题被特别处理的ST公司的（T-2）和（T-1）年数据，构建基于多层感知器（MLP）的神经网络模型，并将样本数据按7∶3比例进一步分为训练样本与测试样本，以使模型结果更加直观地反映各项财务和非财务指标。
1、（T-2）年神经网络财务预警模型预测。基于MLP的神经网络的输入层因子应为表4中通过显著性检验的11个指标，输出层是对两年后目标公司是否被ST所进行的判断，故输出层单元数应为2；相应地，隐藏层单元数则是以输入与输出层结构为依据，自动认定为4。（T-2）年神经网络财务预警模型的信息如表7所示。（表7）
图1给出了ROC曲线（接受者操作特征曲线），可知神经网络财务预警模型的拟合效果较好。（图1）
表8给出了（T-2）年神经网络财务预警模型的分类表。由表8可知，（T-2）年神经网络模型把2家ST公司错误的预测为了非ST公司，得出ST公司的预测准确率为91.3%。因为把4家非ST公司错误的预测为了ST公司，得出非ST公司的预测准确率为82.6%。用两个准确率可以看出，预警模型对ST公司的识别更为准确。根据神经网络模型，上述11个变量对模型分类的影响程度的排序情况如图2所示，其中去掉了重要性低于20%的总资产周转率和流动比率。（表8、图2）
2、（T-1）年神经网络财务预警模型预测。基于MLP的神经网络的输入层因子应为表6中通过显著性检验的12个指标，输出层是判断一年后目标公司是否会被ST，2是输出层的单元数，然后隐藏层单元数就自动认定为2。表9所示的是（T-1）年神经网络财务预警模型的信息表。（表9）
图3给出了ROC曲线（接受者操作特征曲线），可知神经网络财务预警模型的拟合效果较好。（图3）
表10给出了（T-1）年神经网络财务预警模型的分类表。由表10可知，（T-1）年神经网络模型把1家ST公司错误地预测为非ST公司，得出ST公司的预测准确率为95.7%。因为把3家非ST公司被错误地预测为ST公司，得出非ST公司的预测准确率为86.9%。可见，模型对ST公司的识别效果更佳。根据神经网络模型，上述12个变量对模型分类的影响程度的排序情况如图4所示，其中去掉了重要性低于20%的总资产周转率。（表10、图4）
通过构建（T-2）年和（T-1）年神经网络财务预警模型，去除掉重要程度低于20%的变量，得出2017～2019年对样本公司财务预警相对重要的变量指标，主要有五项，分别是净利润增长率、固定资产周转率、净资产增长率、审计意见类型和资产利润率。
（二）决策树财务预警模型预测。借助选取的ST公司的各项指标数据，对（T-2）年和（T-1）年的CHAID决策树模型进行构建，上文所选出的5项重要的指标变量就是决策树模型的自变量。并将样本分为训练样本和测试样本（7∶3）。除此之外，修正树的父节点的最小个案数为3，子节点的最小个案数确定为1，还要控制最大树深度。
1、（T-2）年决策树财务预警模型预测。根据（T-2）年决策树模型的结果，对决策树的关键指标进行排次（按重要程度：（1）资产净利率；（2）净资产增长率；（3）净利润增长率；（4）固定资产周转率。决策树的节点数为11，终端节点数为6，树深为3，输出结构具体如表11所示。（表11）
决策树财务预警模型（T-2）年的判别分类结果如表12所示。根据表12，决策树模型对样本公司（T-2）年的财预警结果如下：对ST公司的预测结果准确率为91.3%；对非ST公司的预测准确率为86.9%，模型总体的准确率为89.2%，预测的准确性较高。（表12）
2、（T-1）年决策树财务预警模型预测。根据（T-1）年决策树模型结果，对决策树的关键指标进行排次（按重要程度）：（1）资产净利率；（2）审计意见类型；（3）净利润增长率。决策树的节点数为7，终端节点数为4，树深为3，模型输出的结构如表13所示。（表13）
决策树财务预警模型（T-1）年的判别分类结果如表14所示。根据表14，决策树模型对样本公司（T-1）年的财预警结果如下：对ST公司的预测准确率为95.7%；对非ST公司的预测准确率为82.6%。预警模型的总体准确率为95.7%，预测的准确性较高。（表14）
（三）Logistic回归财务预警模型预测
1、（T-2）年Logistic回归财务预警模型预测。对上文中所选取的样本数据进行多元回归分析，构建出Logistic回归模型，借助有条件的向后筛选变量的办法，Logistic回归模型的自变量选了上述五个自变量中的三个，分别是X10净资产增长率，X1资产利润率和X8净利润增长率。最终，得到如公式（1）所示的样本公司（T-2）年财务预警Logistic回归模型。
Y=α+β1X10+β2X8+β3X1+ε　（1）
公式（1）中，β表示各变量系数，α为常数项，ε为误差项。利用SPSS20.0对模型进行回归，结果如表15所示。由表15可知，净利润增长率X8、净资产增长率X10、资产利润率X1的系数分比为0.254、0.336和0.667，P值均小于0.05，表示三项指标与上市公司财务预警具有显著正向关联，可以用这三项指标判断上市公司是不是ST公司。（表15）
表16显示的是（T-2）年Logistic财务预警模型的回归分类结果。根据表16可得，Logistic模型对样本公司（T-2）年的财务预警结果如下：2家预测错误，对ST公司的预测准确率为91.3%；5家预测错误，对非ST公司的预测准确率为78.2%。财务预警模型的总体准确率为85.6%，预测的准确性较高。（表16）
2、（T-1）年Logistic回归财务预警模型预测。对本文所选取的样本数据进行多元回归分析，构建Logistic回归模型，借助有条件的向后筛选变量的办法，Logistic回归模型的自变量选了五个自变量中的四个，分别是净资产增长率X10、资产利润率X1、净利润增长率X8和审计意见类型X19。最终，得到如公式（2）所示的样本公司（T-1）年财务预警Logistic回归模型。
Y=α+β1X10+β2X8+β3X1+β4X19+ε　（2）
公式（2）中，β表示各变量系数，α代表常数项，ε代表误差项。运用SPSS20.0对模型进行回归，结果如表17所示。由表17可以得知，净资产增长率X10、净利润增长率X8、资产利润率X1和审计意见类型X19的系数分别为0.196、0.454、0.825、-2.115，P值均小于0.05，表示四项指标与上市公司财务预警具有显著正向关联，所以判断是否为ST公司可以用这四个指标。（表17）
Logistic财务预警模型（T-1）年的回归分类结果如表18所示。根据表18，Logistic模型对样本公司（T-1）年的财预警结果如下：对ST公司的预测准确率为95.7%，因为把1家ST公司错误的预测为非ST公司；对非ST公司的预测准确率为82.6%，因为把4家非ST公司错误的预测为ST公司。模型总体的准确率为95.7%，预测的准确性较高。（表18）
（四）各模型指标筛选的有效性检验。表19是三个模型对是否为ST公司进行预测的对比，三个模型分别是神经网络财务预警模型、决策树和Logistic回归财务预警模型。（表19）
由表19可知，对ST公司预测的准确度比较高的是决策树和Logistic回归模型，同时说明神经网络财务预警模型所得到的各变量可以较好地反映出公司的财务状况。此外，越接近财务风险发生的年份（T-1）年，各模型对公司财务风险预测的准确性也越高。
四、结论
本文在对财务预警和数据挖掘的相关概念予以阐述的基础上，构建了基于财务与非财务指标的上市公司财务预警体系，并用上市公司（T-2）年和（T-1）年的各项指标作为样本数据，对各数据进行显著性检验，进而构建神经网络财务预警模型，通过模型预测出公司是否是ST公司，得出的结论是：模型对（T-2）年和（T-1）年预测的准确率均处于较高水平，分别为87.3%和91.7%。同时，筛选出对样本公司财务状况具有显著影响的5个关键指标，分别为固定资产周转率、审计意见类型、净资产增长率、净利润增长率和资产利润率。
此外，为进一步验证模型对指标筛选的有效性，基于样本公司被特别处理（T-2）年和（T-1）年的相关指标数据，构建决策树与Logistic回归财务预警模型，结果表明：二者对样本公司是否为ST公司的预测具有较高的准确率，表明基于神经网络的上市公司财务预警模型所确定出的各变量能够较好地反映出公司的财务状况，代表性较强，能够较好地应用于上市公司财务预警当中，帮助上市公司更加全面地了解自身财务状况，有效应对财务风险。
（作者单位：西安石油大学经济管理学院）

主要参考文献：
［1］李成锋，黄康梅，贾男.数据挖掘技术在财务风险预警中的应用［J］.全国流通经济，2021（02）.
［2］张晓萍，张颖，张若望，等.基于数据挖掘的上市公司财务风险预警研究——来自京津冀上市公司的经验证据［J］.时代经贸，2019（31）.
［3］崔维康，张晓萍，张若望，等.基于数据挖掘的上市公司财务危机预警研究［J］.时代经贸，2019（29）.
［4］易全.数据挖掘方法在建筑企业财务预警中的应用探析［J］.商讯，2019（16）.
［5］郭长帅，卓建伟.基于数据挖掘算法的流动人口定居意愿研究［J］.管理现代化，2019.39（03）.
［6］王良，鲍喜，王云，等.基于数据挖掘算法的审计数据分析及案例应用［J］.中国注册会计师，2020.253（06）.
［7］李茜，唐恒书.基于三种BP-NNs改进算法的财务预警研究［J］.会计之友，2019.606（06）.
［8］李贺.基于企业财务会计内部控制的优化路径研究［J］.经济学，2020.03（05）.
［9］高锦萍，梁曦月，陈宇.企业财务重述及时性的现状及特征——基于中国A股上市公司的研究［J］.会计之友，2019（18）.
［10］宋宇，李鸿禧.基于决策树集成的债券发行企业财务预警研究［J］.财会月刊（会计版），2020（06）.
［11］王洋洋.基于大数据环境的企业舆情管理与财务预警研究［J］.财会通讯，2020.844（08）.
［12］侯旭华，彭娟.基于熵值法和功效系数法的互联网保险公司财务风险预警研究［J］.财经理论与实践，2019.221（05）.
［13］梁恒.基于盈利质量的DANP变权财务危机预警模型研究［J］.财会通讯（综合版），2020（02）.
［14］杨秀琼.基于模糊DEA的上市商业银行财务绩效评价研究［J］.财会通讯，2020（14）.
［15］宋文娟，李爱红.基于动态财务分析法的商业银行资产负债管理研究［J］.财会通讯，2020（12）.