非均衡数据分类算法及其在助学贷款风险管理中的应用研究
本文关键词:非均衡数据分类算法及其在助学贷款风险管理中的应用研究 出处:《华中科技大学》2012年博士论文 论文类型:学位论文
更多相关文章: 分类 非均衡数据集 重取样 支持向量机 助学贷款 信用风险管理
【摘要】:非均衡数据集的分类是数据挖掘的任务之一,通常传统分类方法应用于非均衡数据集会带来少数类分类精度的下降等问题,而非均衡数据集的预处理和分类器的优化可以较好地提高少数类的分类精度。国家助学贷款的违约风险管理涉及到非均衡数据集的分类问题,有效预防和控制违约风险的发生始终是这个领域关注的重点。 本文围绕非均衡数据集分类问题及其在助学贷款风险分类中的应用做了如下工作: 对分类问题的研究现状进行了综述。重点分析非均衡数据集分类所面临的困境及当前国内外在这一领域研究的主要方向,同时对比了国内外非均衡分类技术在学生贷款风险管理分类及个人信用评估中的主要差异。指出我国在学生贷款信用风险管理定量研究方面的不足和制约因素。 围绕非均衡数据集分类的两个主要研究方向:数据集的预处理和分类算法的优化开展了研究工作。分析了SMOTE重取样技术的特点和不足之处,受封装式属性选择思想的启发,提出了基于封装式的少数类重取样技术(Wrapper Synthetic Minority Over-sampling Technique, Wrapper-SMOTE)来解决非均衡数据集的分类问题,通过UCI数据集的实验验证,该数据预处理方法与SMOTE方法相比进一步提高了少数类分类的效率。 改进了标准粒子群算法,提出基于遗传选择策略的粒子群算法(Genetic Selection Strategy Particle Swarm Optimization, GSSPSO)。利用粒子群的寻优特性,用改进的粒子群来优化支持向量机分类器的参数。重点把支持向量机的损失参数C和权重参数Weight作为一个二维的粒子K(c,w),用GSSPSO进行优化并找到最佳适应值,促使支持向量机优化模型尽快找到面向非均衡数据不同类别错分代价的合理权重,使得分类超平面尽可能偏向于少数类。实验证明优化过的分类器提高了分类模型对少数类样本数据的拟合程度,使分类的精度得到提高。 探索了我国助学贷款违约风险管理的定量研究方法。以武汉地区10所不同类别的高校2001年至2008年贷款学生的57836个数据为样本,这些数据覆盖从高职高专学生到研究生、涉及106个专业。分别把基于封装式的少数类重取样算法和改进粒子群优化支持向量机的分类模型这两种定量方法用应于国家助学贷款违约风险分类,实验结果证明这两种方法提高了分类效率。论文的研究成果可有效帮助高校和银行加强其对可能违约贷款学生的信用评价和跟踪管理,从而降低银行助学贷款违约率;同时,研究成果也有助于促进我国学生助学贷款政策的健康和可持续发展。
[Abstract]:The classification of disequilibrium data sets is Ren Wuzhi of data mining. Usually, the traditional classification methods applied to the disequilibrium data sets lead to the decline of classification accuracy of a few classes. The preprocessing of non-equilibrium data sets and the optimization of classifiers can improve the classification accuracy of a few categories. The default risk management of national student loans involves the classification of non-equilibrium data sets. Effective prevention and control of default risk has always been the focus of attention in this field. This paper focuses on the classification of disequilibrium data sets and its application in the risk classification of student loans. In this paper, the current situation of classification is summarized, and the difficulties of non-equilibrium data set classification and the main research directions in this field at home and abroad are analyzed. At the same time, this paper compares the main differences of disequilibrium classification technology in student loan risk management classification and personal credit assessment, and points out the deficiency and restriction factors in the quantitative research of student loan credit risk management in China. This paper focuses on the two main research directions of the classification of disequilibrium data sets: the preprocessing of data sets and the optimization of classification algorithms. The characteristics and shortcomings of SMOTE resampling technology are analyzed. Inspired by the idea of encapsulated attribute selection. This paper presents a few class resampling technique based on encapsulation, wrapper Synthetic Minority Over-sampling Technique. Wrapper-SMOTE) is used to solve the classification problem of unbalanced datasets, which is verified by the experiment of UCI datasets. Compared with the SMOTE method, the data preprocessing method improves the efficiency of the classification of a few classes. The standard particle swarm optimization algorithm is improved. A particle swarm optimization algorithm based on genetic selection strategy (. Genetic Selection Strategy Particle Swarm Optimization. GSSPSO. The optimization property of particle swarm optimization is used. The parameters of support vector machine classifier are optimized by improved particle swarm optimization. The loss parameter C and weight parameter Weight of support vector machine are considered as a two-dimensional particle. GSSPSO is used to optimize and find the best fit value, which urges the support vector machine optimization model to find out the reasonable weight of the different kinds of misdivision cost for the unbalanced data as soon as possible. The experimental results show that the optimized classifier improves the fitting degree of the classification model to a few sample data and improves the accuracy of the classification. This paper explores the quantitative research methods of default risk management of student loans in China. The sample is 57836 loan students from 2001 to 2008 in 10 different types of universities in Wuhan. These data cover everything from higher vocational students to graduate students. These two quantitative methods, which are based on encapsulated minority resampling algorithm and improved particle swarm optimization support vector machine (PSO) classification model, are applied to the classification of default risk of national student loans. The experimental results show that these two methods can improve the classification efficiency. The research results of this paper can effectively help universities and banks to strengthen their credit evaluation and tracking management of students who may default loans. In order to reduce the default rate of bank student loan; At the same time, the research results also help to promote the healthy and sustainable development of student loan policy in China.
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP311.13;G647;F832.4
【相似文献】
相关期刊论文 前10条
1 王安娜;李云路;赵锋云;史成龙;;一种新的半监督直推式支持向量机分类算法[J];仪器仪表学报;2011年07期
2 邝涛;张倩;;改进支持向量机在电信客户流失预测的应用[J];计算机仿真;2011年07期
3 李玲俐;;数据挖掘中分类算法综述[J];重庆师范大学学报(自然科学版);2011年04期
4 倪煜;赵耀;朱振峰;;结合标签传递的镜头边界检测与分类[J];中国图象图形学报;2011年06期
5 邝神芬;李银;;集群SVM大规模数据分类算法[J];韶关学院学报;2011年08期
6 贾昱晟;;基于机器学习的中文文本分类技术研究[J];电脑知识与技术;2011年21期
7 刘健;刘忠;;基于小波变换和支持向量机的水下目标分类方法[J];火力与指挥控制;2011年09期
8 陈荣;曹永锋;孙洪;;基于主动学习和半监督学习的多类图像分类[J];自动化学报;2011年08期
9 周靖;;改进偏二叉树多类SVM的文本分类[J];广东石油化工学院学报;2011年04期
10 王伟;马永强;彭强;;SVM多类分类器在车牌字符识别中的应用[J];计算机工程与设计;2011年09期
相关会议论文 前10条
1 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
2 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
3 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
4 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
5 高红霞;蔡锦龙;;基于支持向量机的印刷电路板焊点分类算法[A];中国自动化学会中南六省(区)2010年第28届年会·论文集[C];2010年
6 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
7 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
8 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
9 张军;;支持向量机方法在地下水位干扰排除中的初步应用[A];2007年地震流体学术研讨会论文摘要集[C];2007年
10 许建生;盛立东;;基于改进的支持向量机和BP神经网络的识别算法[A];第八届全国汉字识别学术会议论文集[C];2002年
相关重要报纸文章 前10条
1 ;SecuiWALL独创分类算法[N];计算机世界;2002年
2 俞路石;中科大研究生解决网络数据包有效分类算法[N];中国教育报;2007年
3 ;锐捷RG-WALL系列防火墙[N];电脑商报;2004年
4 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
5 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
6 李水根;计算机详解配伍与药效关系[N];健康报;2005年
7 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
8 YMG记者 李仁 通讯员 曲华明 孙运智;我市九项目进入省“盘子”[N];烟台日报;2010年
9 ;百兆防火墙[N];计算机世界;2002年
10 ;MaxNet:本土化贴合市场[N];网络世界;2008年
相关博士学位论文 前10条
1 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
2 陈万海;基于支持向量机的超谱图像分类技术研究[D];哈尔滨工程大学;2008年
3 武国正;支持向量机在湖泊富营养化评价及水质预测中的应用研究[D];内蒙古农业大学;2008年
4 王冬丽;基于可扩展的支持向量机分类算法及在信用评级中的应用[D];东华大学;2011年
5 刘叶青;原始空间中支持向量机若干问题的研究[D];西安电子科技大学;2009年
6 韩晓明;基于符号有向图和支持向量机的故障诊断方法的研究[D];太原理工大学;2011年
7 贾银山;支持向量机算法及其在网络入侵检测中的应用[D];大连海事大学;2004年
8 刘宏兵;多目标粒度支持向量机及其应用研究[D];武汉理工大学;2011年
9 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
10 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
相关硕士学位论文 前10条
1 刘艳伟;支持向量机方法在感潮河段洪峰水位预报中的应用[D];浙江大学;2010年
2 杨镭;支持向量机算法设计及在高分辨雷达目标识别中的应用[D];国防科学技术大学;2010年
3 童振;基于支持向量机的电解液成分预测[D];东北大学;2008年
4 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
5 鄢常亮;基于支持向量机的高炉向凉向热炉况预测研究[D];内蒙古科技大学;2010年
6 韩叙东;基于支持向量机的水电故障分类器的设计与实现[D];东北大学;2008年
7 冯杰;慢时变对象的支持向量机建模与在线校正方法研究[D];东北大学;2009年
8 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
9 王奇安;基于广泛内核的CVM算法研究及参数C的选择[D];南京航空航天大学;2009年
10 张永新;基于支持向量机和遗传算法相结合的模拟电路故障诊断方法研究[D];东北大学;2009年
,本文编号:1412815
本文链接:https://www.wllwen.com/jiaoyulunwen/suzhijiaoyulunwen/1412815.html