首页 期刊简介 最新目录 过往期刊 在线投稿 欢迎订阅 访客留言 联系我们
新版网站改版了,欢迎提出建议。
访客留言
邮箱:
留言:
  
联系我们

合作经济与科技杂志社

地址:石家庄市建设南大街21号

邮编:050011

电话:0311-86049879
友情链接
·中国知网 ·万方数据
·北京超星 ·重庆维普
经济/产业

信息类别

首页/本刊文章/第451期/财会/审计/正文

发布时间

2012/9/24

作者

□文/江 锋

浏览次数

669 次

基于随机森林的上市公司财务舞弊识别研究
  [提要] 在参考前人研究成果的基础上,引入组合分类方法中的随机森林技术,对2000~2008年有财务舞弊行为的上市公司及相应的控制样本数据进行分析,模型达到较高的预测率。随机森林在特征指标选择和预测精度方面都有很好的效果,目前还鲜有文献将这一技术运用到经济管理相关研究中。
关键词:财务舞弊识别;随机森林;R语言
中图分类号:F23 文献标识码:A
收录日期:2012年8月30日
  财务舞弊即财务报告舞弊,通常是指管理当局采取伪造、掩饰等手法,编制和发布虚假财务信息,诱导投资者做出错误的决策,从而实现自身利益最大化的违法行为。近年来,上市公司财务舞弊现象正因其层出不穷的发生态势和所带来的巨大损失得到各界的广泛关注,各界在谴责那些舞弊企业道德丧失的同时,更是对研究出有效识别财务舞弊的方法提出迫切希望。
  一、文献综述
  目前,财务舞弊识别研究主要涉及定性研究和定量研究两方面,定性研究主要通过对企业会计报表进行深度考察并试图发现其中的矛盾,以此来甄别舞弊。如,刘姝威(2002)就利用这种方法揭发了曾轰动一时的银广夏和蓝田股份的财务舞弊案。
  定量研究则主要依托于统计学和数据挖掘方法,对舞弊企业与非舞弊企业控制样本进行建模,并通过模型来预测企业是否舞弊。常用的方法诸如逻辑回归模型、判别分析、神经网络、决策树、支持向量机等。如Beneish(1999)利用Probit判别方法建立模型,模型的准确预测率达到75%,并在实际中得到了一定程度的运用。顾宁生等(2009)用学习矢量量化(LVQ)神经网络进行建模,同时将模型与BP神经网络、支持向量机的预测效果进行对比,发现LVQ神经网络的效果最好。王敏(2011)结合舞弊三角理论采用逻辑回归模型建模,研究表明,法人股比例越高、监事会会议次数越多、当年的审计意见类型为非标准审计意见的公司越容易发生财务舞弊行为。
  二、研究方法
  近年来,很多学者采用数据挖掘方法进行财务舞弊识别研究,但这些方法的实际效果往往有限,究其原因,Breiman(1996)认为数据挖掘领域很多算法都是不稳定的,当训练集稍微有变动都会使识别效果大打折扣。在这种不稳定的情况下,将分类器组合起来能大大提升分类器的分类效果。
  本文采用随机森林方法进行研究,随机森林是Breiman在2001年提出的一种组合分类方法,它主要是利用自助重抽样法对原始样本进行抽样,再用这些样本分别建立决策树,最后根据这些树的分类结果投票得出最终预测结果。在分类问题中,随机森林得到的组合模型如下:
  H■(X)=arg■■(I(h(X;?专■)=j))
  其中,HR(X)是组合分类模型,h表示单棵树的预测结果,I是示性函数,公式表示使用得票最多的结果进行预测。
  目前,随机森林主要应用于生物信息领域,在财务舞弊识别的研究上,国内尚无相关文献。
  三、实证研究
  (一)样本选择。本文选取2000~2008年之间被证监会公开处罚的财务舞弊上市公司,除去涉及中报、季报、临时公告,只保留涉及年报的舞弊企业,最终剩余116家舞弊企业,以舞弊当年为一个样本,涉及多年舞弊的企业以其初次舞弊的年份为样本。为了保证控制样本的企业不涉及舞弊,对控制样本的选择采取下列限制:
  1、在与舞弊企业同行业同年度的企业中进行选择,即保证舞弊样本和控制样本在行业和年度的分布要类似。
  2、除去被ST、S、PT的上市公司。
  3、控制样本前后3年的审计报告意见都是标准无保留意见。
  通过筛选,本文最终选择116家舞弊企业和116家非舞弊企业。样本数据及下文的变量数据都来自国泰安数据库。
  (二)变量选择。本文从公司财务状况和公司治理两个方面对变量进行选择,具体变量如表1所示。(表1)
  (三)模型建立过程。整个模型的构建过程基于R语言环境并采用R语言的varSelRF包和CORElearn包进行,R语言是一种集统计计算和图形绘画为一体的程序语言,在R的镜像站上有接近4,000多个程序包,涉及统计学、机器学习、计量经济学等多个学科,varSelRF和CORElearn包里包括了用随机森林进行变量筛选和建模的相关函数。
  1、变量筛选。随机森林变量筛选的主旨思想是从备选的变量中选取使分类效果达到最优且数量最少的变量组合。经过筛选,财务杠杆系数、流动资产周转率、实际所得税率、销售期间费用率、应收账款周转率、营业利润率、债务保障率、资产报酬率、资产负债率9个指标成为入选的变量。
  2、训练集、测试集划分。从样本中随机抽取75%作为训练集,剩余的25%为测试集。
  3、RF模型建模。大量实证研究的结果表明,在模型的建立过程中对参数进行相应的调整能使模型达到更好的效果,RF需要调整的参数主要有rfNoTrees(建模需要的树的个数)和minNodeWeightRF(每个节点处候选特征的个数),经反复试验发现当rfNoTrees设置为100,minNodeWeightRF设置为3时,模型拟合的效果最好,最终得到的预测结果如表2所示。(表2)
  四、结论
  本文基于上市公司财务舞弊相关数据用随机森林对数据进行变量筛选及对筛选后的变量建模,变量筛选的指标集中分布在盈利能力、营运能力两个方面。同时,模型最后的预测正确率在训练集达到95.4%,在测试集上也达到72.4,预测效果良好。预测效果表明可以将随机森林方法引入财务舞弊识别的实际应用中。
(作者单位:杭州电子科技大学经济学院)

主要参考文献:
[1]王敏.舞弊三角与财务舞弊识别[J].财会月刊,2011.10.
[2]Beneish M.D.Implications for assessing ernings management among firms with extreme.Financial performance[J].Journal of Accounting and Public Policy,1997.16.2.
[3]Breiman,Leo.Heuristics of Instability and Stabilization in Model Slection[J].The Annals of Statistics,1996.24.16.
[4]刘君,王理平.基于概率神经网络的财务舞弊识别模型[J].哈尔滨商业大学学报,2006.3.
 
版权所有:合作经济与科技杂志社 备案号:冀ICP备12020543号
您是本站第 32380612 位访客