面向财务危机预警的随机层叠森林算法研究
发布时间:2021-02-12 07:19
近些年,金融科技在国内外迅猛发展,以金融科技为背景的技术正在全方位赋能金融体系的信息化和智能化,其在金融智能风控、量化交易、资产管理等领域都有巨大的研究空间和价值。财务风险预警是金融智能风控领域的重要研究问题,它能监控企业经营活动和财务状况的变化,帮助政府监管者、投资人或企业主等尽早发现企业的潜在风险,从而提早采取相应措施,它事关每一个企业生死存亡和市场经济的平稳发展,具有现实意义。针对国内已有的财务风险预警研究存在样本选择有偏、时间跨度较短、泛化能力不强等问题,本文结合了机器学习、概率统计、金融学、财务管理等跨领域的知识,从差异化集成以及聚类辅助分类的角度,开展财务风险预警模型的研究。首先,本文构建了财务风险预警的数据集,设计并采集了2006年至2016年近10年来15367条财务风险数据,涉及到2550家上市公司,6大类一级预警因子,96个二级预警因子。其次,提出了基于聚类以及stacking堆叠泛化的两阶段混联集成学习方法——随机层叠森林,进行财务风险预警。此模型先计算维度约束,再通过对多维连续特征的随机特征子空间的聚类来进行特征离散化,并生成高维特征。同时,考虑到原始特征以及随...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
并联集成框架图
峭ü?鹗Ш??母禾荻确较蚪?心夂希?佣?盟鹗Ш??诿恳宦值???续的下降。Chen等人[41]在GBDT的基础上提出XGBoost针对损失函数进行二阶泰勒展开,既用到了一阶导数也用到了二阶导数,同时引入了正则化项来控制模型的复杂度,防止过拟合。Prokhorenkova等人[42]针对数据集中的类别变量提出了Catboost算法,有别于传统的在预处理阶段进行one-hot编码,Catboost在训练过程中处理,对样本进行随机重排序后根据不同预测任务通过哈希函数将类别转为数值变量,再按一定的规则计算出统计特征来表示类别变量。串联集成框架如图1-2所示。图1-2串联集成框架图(3)混联集成框架混合集成是一种层内并联、层间串联的多层集成学习模式,在每一层使用不同的算法训练多个异质分类器,上一层每个分类器的预测结果会辅助下一层分类器的训练,良好的混联集成的设计能够取长补短,综合串联和并联集成的优势。但同时,混联集成也会造成模型过于复杂,降低模型的可控性,增加模型的训练难度。Stacking就是一种混联集成框架,是使用不同的算法训练多个异质分类器,在每个分类器预测结果的基础上进行再学习组合的集成学习方法。后来学界有针对Stacking结构的改进研究[43-44]。Troika[44]算法采用了更复杂的三层集成结构,所有的基模型作为第一层,将所有基模型的输出作为第二层Specialist学习器的输入,最后第二层的输出通过第三层的meta学习器进行训练得到最终结果。学界也有针对Stacking训练方式的研究。Nguyen等人[45]提出基于交叉验证构造异质集成分类器生成元数据和基于模糊规则集学习元数据的Stacking算法,该算法在对比多个集成算法中都取得了很好的效果。Wang等人[46]为了
第一章绪论9提高癌症诊断的准确性和可解释性,提出了在基模型训练之后使用多目标进化算法进行基模型的筛选以及在Stacking之后进行规则剪枝以此在既保证精度的同时降低了模型复杂度。混联集成框架如图2-4所示。图1-3混联集成框架图本文提出的多层交叉集成学习方法也属于混联集成,其可以有效的对原始特征和第一阶段的高维特征进行过滤,同时开创性的将不同深浅的元数据进行再训练,最终在危机预警分类中取得了比较好的效果。1.2.4当前研究存在的问题通过阅读国内外的研究文献,当前研究存在的问题主要有以下几点:(1)财务健康样本选择的主观性较大财务风险预警是个不均衡类别问题,已有的很多财务预警建模研究是在已挑选的财务危机的样本的基础上,对样本数据人为主观的配对或者按照一定比例挑选样本方法,这种静态建模的方式可能造成实验结果与实际效果是有偏的。(2)样本时间跨度短,数量少,泛化能力不强由于数据的可获得性或者建模的简易性,很多研究选择的时间跨度比较短,再加上主观的平衡财务健康与财务危机的数据,使得实验的样本量较少,这对复杂预测模型的训练和实际泛化能力有所影响。(3)集成预警的研究还不够深入现有的财务预警研究中,单一模型建模仍然占目前研究的大多数,一部分专家学者尝试使用集成预警来提高预测效果,取得了一定的成果,但很多集成预警模型的研究不够深入,仅仅多个分类器的简单组合或者集成技术的简单应用,比较少根据财务预警数据集的特点进行集成建模。
【参考文献】:
期刊论文
[1]基于改进FOA算法的上市公司Z-Score模型财务预警[J]. 康彩红,王秋萍,肖燕婷. 计算机系统应用. 2018(11)
[2]基于PSO-BP和FOA-BP神经网络的财务危机预警模型比较[J]. 王玉冬,王迪,王珊珊. 统计与决策. 2018(15)
[3]多源信息融合视角下中小企业财务危机预警研究——基于集成学习的数据挖掘方法[J]. 操玮,李灿,朱卫东. 财会通讯. 2018(05)
[4]基于误判代价加权的Logistic财务预警模型研究[J]. 何胜美,方茂扬,王响. 经济数学. 2017(02)
[5]基于MTS-AdaBoost的不平衡数据分类研究[J]. 顾玉萍,程龙生. 计算机应用研究. 2018(02)
[6]AS-FOA优化GRNN网络的财务预警研究[J]. 王英博,柴佳佳. 计算机科学. 2016(07)
[7]基于多元概率比回归模型的上市公司财务危机预警分析[J]. 高小雪. 企业经济. 2015(04)
[8]基于人群搜索算法的上市公司的Z-Score模型财务预警研究[J]. 赵海蕾,周方召,金德环. 财经理论与实践. 2015(02)
[9]基于Logistic与Fisher的上市公司财务困境判别模型比较研究[J]. 马若微,张微. 北京工商大学学报(社会科学版). 2014(02)
[10]上市公司财务困境预测方法的比较研究[J]. 吕长江,周现华. 吉林大学社会科学学报. 2005(06)
本文编号:3030469
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
并联集成框架图
峭ü?鹗Ш??母禾荻确较蚪?心夂希?佣?盟鹗Ш??诿恳宦值???续的下降。Chen等人[41]在GBDT的基础上提出XGBoost针对损失函数进行二阶泰勒展开,既用到了一阶导数也用到了二阶导数,同时引入了正则化项来控制模型的复杂度,防止过拟合。Prokhorenkova等人[42]针对数据集中的类别变量提出了Catboost算法,有别于传统的在预处理阶段进行one-hot编码,Catboost在训练过程中处理,对样本进行随机重排序后根据不同预测任务通过哈希函数将类别转为数值变量,再按一定的规则计算出统计特征来表示类别变量。串联集成框架如图1-2所示。图1-2串联集成框架图(3)混联集成框架混合集成是一种层内并联、层间串联的多层集成学习模式,在每一层使用不同的算法训练多个异质分类器,上一层每个分类器的预测结果会辅助下一层分类器的训练,良好的混联集成的设计能够取长补短,综合串联和并联集成的优势。但同时,混联集成也会造成模型过于复杂,降低模型的可控性,增加模型的训练难度。Stacking就是一种混联集成框架,是使用不同的算法训练多个异质分类器,在每个分类器预测结果的基础上进行再学习组合的集成学习方法。后来学界有针对Stacking结构的改进研究[43-44]。Troika[44]算法采用了更复杂的三层集成结构,所有的基模型作为第一层,将所有基模型的输出作为第二层Specialist学习器的输入,最后第二层的输出通过第三层的meta学习器进行训练得到最终结果。学界也有针对Stacking训练方式的研究。Nguyen等人[45]提出基于交叉验证构造异质集成分类器生成元数据和基于模糊规则集学习元数据的Stacking算法,该算法在对比多个集成算法中都取得了很好的效果。Wang等人[46]为了
第一章绪论9提高癌症诊断的准确性和可解释性,提出了在基模型训练之后使用多目标进化算法进行基模型的筛选以及在Stacking之后进行规则剪枝以此在既保证精度的同时降低了模型复杂度。混联集成框架如图2-4所示。图1-3混联集成框架图本文提出的多层交叉集成学习方法也属于混联集成,其可以有效的对原始特征和第一阶段的高维特征进行过滤,同时开创性的将不同深浅的元数据进行再训练,最终在危机预警分类中取得了比较好的效果。1.2.4当前研究存在的问题通过阅读国内外的研究文献,当前研究存在的问题主要有以下几点:(1)财务健康样本选择的主观性较大财务风险预警是个不均衡类别问题,已有的很多财务预警建模研究是在已挑选的财务危机的样本的基础上,对样本数据人为主观的配对或者按照一定比例挑选样本方法,这种静态建模的方式可能造成实验结果与实际效果是有偏的。(2)样本时间跨度短,数量少,泛化能力不强由于数据的可获得性或者建模的简易性,很多研究选择的时间跨度比较短,再加上主观的平衡财务健康与财务危机的数据,使得实验的样本量较少,这对复杂预测模型的训练和实际泛化能力有所影响。(3)集成预警的研究还不够深入现有的财务预警研究中,单一模型建模仍然占目前研究的大多数,一部分专家学者尝试使用集成预警来提高预测效果,取得了一定的成果,但很多集成预警模型的研究不够深入,仅仅多个分类器的简单组合或者集成技术的简单应用,比较少根据财务预警数据集的特点进行集成建模。
【参考文献】:
期刊论文
[1]基于改进FOA算法的上市公司Z-Score模型财务预警[J]. 康彩红,王秋萍,肖燕婷. 计算机系统应用. 2018(11)
[2]基于PSO-BP和FOA-BP神经网络的财务危机预警模型比较[J]. 王玉冬,王迪,王珊珊. 统计与决策. 2018(15)
[3]多源信息融合视角下中小企业财务危机预警研究——基于集成学习的数据挖掘方法[J]. 操玮,李灿,朱卫东. 财会通讯. 2018(05)
[4]基于误判代价加权的Logistic财务预警模型研究[J]. 何胜美,方茂扬,王响. 经济数学. 2017(02)
[5]基于MTS-AdaBoost的不平衡数据分类研究[J]. 顾玉萍,程龙生. 计算机应用研究. 2018(02)
[6]AS-FOA优化GRNN网络的财务预警研究[J]. 王英博,柴佳佳. 计算机科学. 2016(07)
[7]基于多元概率比回归模型的上市公司财务危机预警分析[J]. 高小雪. 企业经济. 2015(04)
[8]基于人群搜索算法的上市公司的Z-Score模型财务预警研究[J]. 赵海蕾,周方召,金德环. 财经理论与实践. 2015(02)
[9]基于Logistic与Fisher的上市公司财务困境判别模型比较研究[J]. 马若微,张微. 北京工商大学学报(社会科学版). 2014(02)
[10]上市公司财务困境预测方法的比较研究[J]. 吕长江,周现华. 吉林大学社会科学学报. 2005(06)
本文编号:3030469
本文链接:https://www.wllwen.com/jingjilunwen/xmjj/3030469.html