基于随机森林的上市公司舞弊风险识别模型研究
发布时间:2021-07-08 23:41
当下我国处于金融体制转型的关键时期,正逐渐成为全球经济增长的重要驱动力。然而过去二十年间上市公司舞弊丑闻频发、屡禁不止,沉重打击投资者和社会公众对资本市场的信心,使得公司财务报告公信力下降。能否有效治理公司舞弊这一资本市场顽疾,将决定新兴时期资本市场与实体经济有效对接的成功与否以及供给侧结构性改革下产业转型升级的效率、效果,会计理论界、实务界和监管机构对此都高度关注。研究表明相较于案例分析,模型识别舞弊效果更优。现阶段在舞弊识别指标方面的研究相对完善,舞弊识别模型的构建上还有待探索。基于此本文将随机森林算法引入识别上市公司舞弊,对保持资本市场有效活力具有极其重要的现实意义。随机森林(Randomforest)作为一种组合分类器算法,在大样本、高维度特征和异常值数据上仍能保持较高的预测准确率,是非线性建模的重要工具之一,近年来在生物信息学、医学、社会科学等领域研究成果颇丰,并且在风险识别与预警中展现出极大的潜力。基于此本文构建了基于随机森林的上市公司舞弊风险识别模型,相关数据处理和模型构建均在Python环境下编程实现。本文首先从舞弊动因探索与理论分析、舞弊风险识别指标、舞弊风险识别方法...
【文章来源】:杭州电子科技大学浙江省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图1.1文章结构??
用了太多无关的输入变量时,也会出现过拟合问题。一般来说决策树越复杂,过??拟合程度就越高。剪枝(pruning)是应对决策树过拟合、优化模型的常用方法,??如图3.1。剪枝分一般分为先剪枝(prepruning)和后剪枝(postpriming)。??Treei?Tree2??O?又??/?\?A?^??6?b?i?\>?°?°??/\??a?b??图3.1决策树剪枝??先剪枝(prepmning)是指提前停止树的“生长”,使结点成为“树叶”,一般??只出现在样本训练过程中。最常用的提前停止决策树成长的方法包括以下两种:??1)限定一个高度,当决策树到达这个高度时停止生长;2)定义一个阈值,当不纯??度衡量的增益观察值小于指定的阈值时,决策树停止生长。后剪枝(postpnming)??指的是先将整棵决策树构造完整,允许树存在“过度拟合”。然后从下到上对非??叶子结点进行考察,如果结点对应的子树被叶子结点替换后,整棵树的泛化能力??更强,预测识别效果越好,则把该结点对应的子树进行删除,即进行了“剪枝”。??后剪枝一般是在样本训练时构建好决策树,然后利用测试集来进行剪枝。??先剪枝方法中精准估计何时停止树的生长十分困难
行节点分裂生长,但是随机森林会随机选择节点的部分样本特征(M个,M<N)??进行最优特征选择,即bootsrap,从而影响决策树的分支生长,这进一步增强了模??型的泛化能力。随机森林算法详细结构如图3.3。随机森林将决策树的分类投票结??果汇总,选择投票次数最多的类别为最终的输出结果,加强了模型分类效果。??D??Bootstrap??D1?D2?D3??I.?……??'pr….…I??i?A?X?ak?A?Xi??id?fi?p?&?cj?b?6?h?A?&?6?l]:??;?d?h?dn?[jb?i??:?r?i?!?:??★?T?,?t_?_??决策树分类?|决策树分类?|决策树分类??结果1?结果2?结果3??投票决定最??优分类??图3.3随机森林思想??随机森林具有很强的泛化性,能够对训练集样本以外的数据进行准确的分类,??即使随机森林中决策树变多,模型也不会出现过拟合。前文3.2己经指出bootstrap??思想下原始样本中大约36.8%不会被抽中的样本被叫做00B?(袋外数据),可以用??24??
本文编号:3272564
【文章来源】:杭州电子科技大学浙江省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图1.1文章结构??
用了太多无关的输入变量时,也会出现过拟合问题。一般来说决策树越复杂,过??拟合程度就越高。剪枝(pruning)是应对决策树过拟合、优化模型的常用方法,??如图3.1。剪枝分一般分为先剪枝(prepruning)和后剪枝(postpriming)。??Treei?Tree2??O?又??/?\?A?^??6?b?i?\>?°?°??/\??a?b??图3.1决策树剪枝??先剪枝(prepmning)是指提前停止树的“生长”,使结点成为“树叶”,一般??只出现在样本训练过程中。最常用的提前停止决策树成长的方法包括以下两种:??1)限定一个高度,当决策树到达这个高度时停止生长;2)定义一个阈值,当不纯??度衡量的增益观察值小于指定的阈值时,决策树停止生长。后剪枝(postpnming)??指的是先将整棵决策树构造完整,允许树存在“过度拟合”。然后从下到上对非??叶子结点进行考察,如果结点对应的子树被叶子结点替换后,整棵树的泛化能力??更强,预测识别效果越好,则把该结点对应的子树进行删除,即进行了“剪枝”。??后剪枝一般是在样本训练时构建好决策树,然后利用测试集来进行剪枝。??先剪枝方法中精准估计何时停止树的生长十分困难
行节点分裂生长,但是随机森林会随机选择节点的部分样本特征(M个,M<N)??进行最优特征选择,即bootsrap,从而影响决策树的分支生长,这进一步增强了模??型的泛化能力。随机森林算法详细结构如图3.3。随机森林将决策树的分类投票结??果汇总,选择投票次数最多的类别为最终的输出结果,加强了模型分类效果。??D??Bootstrap??D1?D2?D3??I.?……??'pr….…I??i?A?X?ak?A?Xi??id?fi?p?&?cj?b?6?h?A?&?6?l]:??;?d?h?dn?[jb?i??:?r?i?!?:??★?T?,?t_?_??决策树分类?|决策树分类?|决策树分类??结果1?结果2?结果3??投票决定最??优分类??图3.3随机森林思想??随机森林具有很强的泛化性,能够对训练集样本以外的数据进行准确的分类,??即使随机森林中决策树变多,模型也不会出现过拟合。前文3.2己经指出bootstrap??思想下原始样本中大约36.8%不会被抽中的样本被叫做00B?(袋外数据),可以用??24??
本文编号:3272564
本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/3272564.html