两阶段特征选择法研究及其在企业信用风险评价中的应用
发布时间:2021-10-05 16:57
2008年的金融危机给全球经济造成了巨大损失,在全球化趋势下,企业之间竞争越来越激烈,因而企业信用风险引发了广泛的关注,建立完善的防范风险机制迫在眉睫.企业拥有各种各样的金融数据,过去很多信用风险模型借助这些数据去判断企业的信用风险,然而在大数据背景下,越来越趋于高维的数据给建模带来了很多难题,传统意义的企业信用风险评价模型日渐失效;与此同时,人工智能迅速兴起,支持向量机等新技术在各个领域得到了广泛地应用,特征选择成为降维的有力武器,而集成学习则通过融合多个子分类器的方式减少了单个分类器的偏差和错误.基于这样的背景,本文在学术研究中提出了一种两阶段特征选择方法.首先对特征选择方法进行稳定性检验,稳定性检验确保所选的特征在整个数据集上都是具有代表性的;然后在过去的研究中,最优特征的数目往往是通过经验确定的,本文对每个特征进行量化评分,将封装式特征选择的思想引入到过滤式特征选择中,以实现去除冗余、降低维度、提高模型准确率的目的;最后基于两阶段特征选择的工作,提出混合模型HFMG,采取组合多个子学习器的模式来进一步提高分类能力,增强模型可靠性.本文结合上市公司信用风险评价来做实证分析,真实数...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:46 页
【学位级别】:硕士
【部分图文】:
图2-1特征选择的基本框架??
特征选择是一个十分重要的数据处理过程,特别是在数据日渐趋于高维的情??况下,在机器学习领域尤其突出,而有关的方法多达几十种,也形成了较为完整??的理论体系,特征选择的基本框架如图2-1.??原始数据???????子集???评价函数??否?是?????1停止条件I ̄?!学习器??图2-1特征选择的基本框架??Fig?2-1?The?basic?framework?of?feature?selection??特征选择按评价准则一般可以分为过滤式和封装式.过滤式使用范围广,易于??理解,一般基于四种度量标准,分别是距离、依赖性、信息、一致性,每种度量??标准角度不一,都旨在挖掘特征的信息.本文这里对常用的过滤式特征选择方法做??一个小的总结,如表2-1,过滤式特征选择流程如图2-2.??表2-1过滤式特征选择方法分类??Table?2-1?Classification?of?the?filter?feature?selection?method??度量标准?具体方法??距离度量?欧式距离、BFF???分支定界、Relief及变种Relie
自助抽样训练集训练分类器,重复这个过程B次得到B个子分类器,最后用每个??子分类器对测试集作预测得到相应结果,采取一定的结合策略获得测试集的最终??结果,如图2-3.??n样本训练集D??n样本抽样集D1?n样本抽样集D2?n样本抽样集DT??????y???w???弱学习器1?弱学习器2?……?弱学习器T??I?^??强学习器??图2-3?Bagging流程图??Fig?2-3?Flow?chart?of?Bagging??子分类器的多样性和准确率对于集成学习十分重要,在Bagging中,每次通过??从原始数据集自助抽样得到一个样本,接着放回该样本继续抽取,直到得到一个??抽样样本集.很显然,从一个nxp数据集有放回抽取?个样本存在着重复,抽??样样本集之间相似度很高,这样会导致构建的子分类器相似.??Boosting需要根据前一次的结果来进行下一次的迭代,算法流程如下:??(1)
【参考文献】:
期刊论文
[1]基于DEA-Cluster交叉模型的中小企业信用风险评价[J]. 孙浩. 常州工学院学报. 2017(06)
[2]基于信息融合的数据挖掘方法在公司财务预警中的应用[J]. 张亮,张玲玲,陈懿冰,腾伟丽. 中国管理科学. 2015(10)
[3]基于互信息的顺序向前特征选择算法[J]. 袁帅,杨宏晖,申昇. 声学技术. 2014(04)
[4]企业信用风险及评价与决策方法研究综述[J]. 张诚,朱艳阳. 时代金融. 2014(20)
[5]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
[6]我国企业财务信用评价研究综述[J]. 张晓峰,徐淑霞. 商场现代化. 2010(09)
[7]企业信用评价发展及应用研究[J]. 刘庆宏,刘列励. 信息技术. 2009(05)
[8]支持向量机与证据理论在信息融合中的结合[J]. 周皓,李少洪. 传感技术学报. 2008(09)
[9]Logistic回归模型在信用风险分析中的应用[J]. 庞素琳. 数学的实践与认识. 2006(09)
本文编号:3420158
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:46 页
【学位级别】:硕士
【部分图文】:
图2-1特征选择的基本框架??
特征选择是一个十分重要的数据处理过程,特别是在数据日渐趋于高维的情??况下,在机器学习领域尤其突出,而有关的方法多达几十种,也形成了较为完整??的理论体系,特征选择的基本框架如图2-1.??原始数据???????子集???评价函数??否?是?????1停止条件I ̄?!学习器??图2-1特征选择的基本框架??Fig?2-1?The?basic?framework?of?feature?selection??特征选择按评价准则一般可以分为过滤式和封装式.过滤式使用范围广,易于??理解,一般基于四种度量标准,分别是距离、依赖性、信息、一致性,每种度量??标准角度不一,都旨在挖掘特征的信息.本文这里对常用的过滤式特征选择方法做??一个小的总结,如表2-1,过滤式特征选择流程如图2-2.??表2-1过滤式特征选择方法分类??Table?2-1?Classification?of?the?filter?feature?selection?method??度量标准?具体方法??距离度量?欧式距离、BFF???分支定界、Relief及变种Relie
自助抽样训练集训练分类器,重复这个过程B次得到B个子分类器,最后用每个??子分类器对测试集作预测得到相应结果,采取一定的结合策略获得测试集的最终??结果,如图2-3.??n样本训练集D??n样本抽样集D1?n样本抽样集D2?n样本抽样集DT??????y???w???弱学习器1?弱学习器2?……?弱学习器T??I?^??强学习器??图2-3?Bagging流程图??Fig?2-3?Flow?chart?of?Bagging??子分类器的多样性和准确率对于集成学习十分重要,在Bagging中,每次通过??从原始数据集自助抽样得到一个样本,接着放回该样本继续抽取,直到得到一个??抽样样本集.很显然,从一个nxp数据集有放回抽取?个样本存在着重复,抽??样样本集之间相似度很高,这样会导致构建的子分类器相似.??Boosting需要根据前一次的结果来进行下一次的迭代,算法流程如下:??(1)
【参考文献】:
期刊论文
[1]基于DEA-Cluster交叉模型的中小企业信用风险评价[J]. 孙浩. 常州工学院学报. 2017(06)
[2]基于信息融合的数据挖掘方法在公司财务预警中的应用[J]. 张亮,张玲玲,陈懿冰,腾伟丽. 中国管理科学. 2015(10)
[3]基于互信息的顺序向前特征选择算法[J]. 袁帅,杨宏晖,申昇. 声学技术. 2014(04)
[4]企业信用风险及评价与决策方法研究综述[J]. 张诚,朱艳阳. 时代金融. 2014(20)
[5]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
[6]我国企业财务信用评价研究综述[J]. 张晓峰,徐淑霞. 商场现代化. 2010(09)
[7]企业信用评价发展及应用研究[J]. 刘庆宏,刘列励. 信息技术. 2009(05)
[8]支持向量机与证据理论在信息融合中的结合[J]. 周皓,李少洪. 传感技术学报. 2008(09)
[9]Logistic回归模型在信用风险分析中的应用[J]. 庞素琳. 数学的实践与认识. 2006(09)
本文编号:3420158
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3420158.html