当前位置:主页 > 经济论文 > 银行论文 >

基于非均衡数据的传统分类模型研究

发布时间:2020-08-11 18:20
【摘要】:随着现代科技的迅猛发展和数据业务的不断增多,大量数据不断积累的同时数据类型也越来越多样化。其中具有代表性的非均衡数据现在越来越多的出现在医疗、金融、保险、生物等相关领域,给这些领域中实际业务数据的分类预测带来了困难。传统分类器的分类预测大都是基于均衡数据集,数据的非均衡性使传统的分类器忽视少数类样本,分类性能下降。本文对如何处理非均衡数据的相关问题进行了研究,主要从数据层面和算法层面来提高基于非均衡数据传统分类模型的分类性能,从而提升传统分类模型在非均衡数据集上的应用价值。本文的主要研究成果有:(1)在数据层面,本文提出了SMOTE-EN+F方法。该方法在SMOTE过采样法的基础上,结合Easy Ensemble欠采样法中集成(Ensemble)思想,以传统分类模型为子模型,以反映少数类样本分类性能的_1F-value值为权重,改善了样本非均衡性的同时提高了传统分类模型的分类性能。通过UCI数据集的实验证明,SMOTE-EN+F法提高了BP神经网络、支持向量机(SVM)和Logistic分类模型对非均衡数据的分类性能。(2)在算法层面,本文研究了基于非均衡数据的Logistic分类模型,为了解决Logistic分类模型在处理非均衡数据时,默认阈值不能合理划分分类变量的问题,本文给出确定分类阈值的方法—置信度阈值法。此方法先计算非均衡数据中各分类样本的置信度,然后将样本置信度作用于默认阈值0.5上,使阈值带有样本信息,进而使得Logistic分类模型能有效的处理非均衡数据的分类问题。同样通过UCI数据集验证了置信度阈值法的合理性。最后,本文使用前面提出的SMOTE-EN+F法和Logistic分类模型的置信度阈值法,基于BP神经网络分类器、支持向量机(SVM)分类器和Logistic分类器,研究非均衡信贷数据中客户是否逾期的分类预测问题。实际应用得出:相比于SMOTE过采样法,SMOTE-EN+F法可以提升传统分类模型对信贷数据的分类准确度且能够更好的识别非均衡信贷数据中的逾期客户,同时得到基于SMOTE-EN+F的SVM信用评分模型;采用本文提出的置信度阈值法可以提升Logistic分类器在实际非均衡信贷数据集上的适用性。
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18;F832.4
【图文】:

论文,传统分类


图 1.1 论文的结构1.4 本文结构安排第一章是绪论,主要总结了本文的研究背景和意义,指出了解决相关非均衡数据问题的必要性。总结了国内外的研究现状,论文的研究内容和论文结构。第二章主要介绍 SMOTE 过采样法和 EasyEnsemble 欠采样法的算法思想和算法步骤以及本文所涉及到的传统分类模型的基本形式。第三章介绍本文提出数据采样法:SMOTE-EN+F 法,包括 SMOTE-EN+F 法的思想和步骤。同时在传统分类模型的基础上,通过 UCI 数据,验证了以传统分类模型为基模型的 SMOTE-EN+F 法可以提升传统分类模型对非均衡数据集的分类性能第四章主要介绍本文提出的另一种方法:基于 Logistic 分类模型的置信度阈值法。首先介绍置信度阈值法的计算过程,然后使用 UCI 数据集验证此方法的合理性。第五章将本文提到的 SMOTE-EN+F 法和基于 Logistic 分类模型的置信度阈值法应用到信贷机构的贷款数据上,对逾期和未逾期客户进行分类,确定出有效的信用评

函数,神经网络,激活函数


图 2.1 神经网络连接图 2.1 所示,每次输入都对应输出,在输入与输出中间起关键作用的函数的作用是对如何来激活输入信号的总和做出决定。所以了解了掌握神经网络的要领。网络中经常使用的一个激活函数是 sigmoid 函数,也称 S 型函数,入输出发生连续性的变化平滑的曲线。如图 2.2。moid 函数为:1( )1 exp( )h x x.x3

函数


基于非均衡数据的传统分类模型研究 sigmoid 函数也存在一定问题,即非零中心化会带来更新缓慢。将激活进为 ReLU 函数,ReLU 函数是最近使用较多的激活函数,函数形式如数学表达式为: ( ) = { ( 0)0 ( 0).U 函数的近似线性性可以体现在很大的区间内,在一定程度上避免了梯爆炸的问题。同时,也有单侧抑制的优点:当神经元的输入小于 0 时,,神经元未被激活,与之相连接的权重边不再重复,这样就减少了参数络的稀疏化减小了过拟合的可能。不过也存在一定的缺点,那就是神经就很难再次激活。ReLU 函数图如图 2.3:

【相似文献】

相关期刊论文 前10条

1 龙克礼;;分析好 大有益——评选好新闻的一点感受[J];新闻界;1988年03期

2 郝文荣;;反义词传统分类与琼斯新分类之比较(英文)[J];考试与评价(大学英语教研版);2016年04期

3 贡斯琴;;蒙药传统分类与现代分类之比较[J];中国民族民间医药;2010年23期

4 焦彤,王戈;我看经济学[J];改革与理论;2002年07期

5 于青圃;中药新的分类模式述要[J];中医药学刊;2004年08期

6 林木;刑事科学技术的传统分类[J];中国人民警官大学学报(自然科学版);1996年03期

7 王健,黎晓敏,贾仁勇,宋维平,李明元,杨本登;中药的传统分类与无机元素关系的研究[J];四川农业大学学报;1996年04期

8 贾敬华;;“58同城”进化论:移动互联下的生活服务平台[J];金融经济;2014年11期

9 吕付勇;;做守法的基督徒[J];中国天主教;2011年05期

10 刘大江;谈俄罗斯现行刑法典[J];法学杂志;1998年05期

相关会议论文 前1条

1 沈世杰;;鱼类传统分类面临的危机[A];中国海洋湖沼动物学会鱼类学分会第七届会员代表大会暨朱元鼎教授诞辰110周年庆学术研讨会学术论文摘要集[C];2006年

相关重要报纸文章 前3条

1 本报记者 李大庆;“五花八门”的学者研讨城市健康与福祉[N];科技日报;2016年

2 徐俊彪;清凉一族网上行[N];中华建筑报;2000年

3 见习记者 杨琳桦;博客要来一场Tag革命[N];21世纪经济报道;2005年

相关硕士学位论文 前5条

1 赵慧;基于非均衡数据的传统分类模型研究[D];山西大学;2019年

2 王鹰;中药临床分类客观化初步研究[D];中国中医科学院;2012年

3 郭梅娜;中国圆瓢蜡蝉属分类及其DNA条形码研究[D];贵州大学;2015年

4 芦荣胜;尺蛾科,灯蛾科部分种类酯酶同工酶的研究[D];陕西师范大学;2000年

5 李金金;汉语歇后语的认知研究[D];江西师范大学;2008年



本文编号:2789404

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/huobiyinxinglunwen/2789404.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户33795***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com