基于数据挖掘技术的微额借款用户的信用预测
本文选题:数据挖掘 + 信用评估 ; 参考:《华中师范大学》2016年硕士论文
【摘要】:随着计算机技术的发展,数字化时代已经到来。以互联网、大数据为代表的这场技术革命正在引领人们加速进入继农业时代、工业时代之后的又一个新的发展阶段—数据时代。世界上百分之九十以上的数据都是近两年产生的,然而庞大数据的背后是如何才能有效利用它们的问题。数据挖掘就是为满足人们对于数据中蕴含信息的充分理解和有效运用而发展起来的一门新兴技术。近几年,伴随着互联网发展起来的还有线上金融服务等新型业务,其中小额贷款以其程序简单、资金灵活、贷款范围广等优势迅速走红,相应的也给贷款机构带来了诸如:贷不贷,贷多少的问题。要处理好这些问题就要尽可能全面的了解贷款客户的各项特征,把握客户动态,及时拟定有效的业务方案。贷款机构在过去的业务实施过程中积累了大量数据,如何利用好这些数据成为解决问题的关键。这里就可以运用数据分析技术,对数据进行分析,及时把握市场动向,优化业务模式。本文就是基于微额速达金融服务公司提供的真实有效数据,详细阐述了数据挖掘在微额借款用户数据集中的应用。具体实施过程是:在R软件中,首先利用sampleO将数据集分为训练集和测试集,然后在训练集上进行模型训练,在测试集上测试模型拟合效果。因为测试集数据结果是已知的,所以可以根据预测值与真实值的比例评价模型好坏。我们这里主要运用了逻辑斯谛回归、K最邻近、决策树和lasso回归进行建模分析,用它们得到的测试错误率依次为:13.8%、10.98%、18.9%、10.5%。期间我们还对logistic回归进行了变量选择,选择后的测试错误率为10.8%,比全模型有所提升。对比这几个模型的测试错误率,lasso回归的效果要稍微好一点。文章不仅对数据挖掘和信用评估的基本理论知识作了介绍,也对信用评估的研究现状做了深刻的分析说明。大数据时代的来临,给企业甚至是政府都带来了很好的发展的契机,然而对数据的有效利用却成为难题。本篇文章就以微额借款用户数据的人品分析为例,向读者展示了如何运用数据挖掘技术对真实的企业数据进行信息发现的过程。文章还对用到的挖掘技术的原理进行了详细介绍,方便读者以后的研究工作。通过运用丰富的客户数据,不断地修改模型参数,优化算法模型,能够在一定程度上降低贷款风险,提高贷款服务质量。文章中的问题处理办法,也给今后的社会发展提供了借鉴:我们可以通过“大数据”和“算法”让商业变得智能,从而为商业决策、企业发展提供好的思路。
[Abstract]:With the development of computer technology, the digital age has come. The technological revolution, represented by the Internet and big data, is leading people to enter a new stage of development after the agricultural age and the industrial age-the data age. More than 90% of the world's data have been generated in the last two years, but behind the huge numbers is the question of how to use them effectively. Data mining is a new technology developed to satisfy the full understanding and effective application of information contained in data. In recent years, along with the development of the Internet, there have also been new types of business such as online financial services. Among them, micro-loans have quickly become popular because of their advantages of simple procedures, flexible capital, wide scope of loans, and so on. It also brings problems such as not lending and how much to lend to lenders. In order to deal with these problems, we must fully understand the characteristics of loan customers, grasp customer dynamics, and formulate effective business plans in time. Loan institutions have accumulated a large amount of data in the past business implementation process, how to make good use of these data become the key to solve the problem. Here can use data analysis technology, data analysis, timely grasp market trends, optimize business models. This paper is based on the real and effective data provided by Microfinance Services Company, and describes the application of data mining in the data set of micro-loan users in detail. In R software, the data set is divided into training set and test set by sampleO, then model training is carried out on the training set, and the model fitting effect is tested on the test set. Because the results of the test set are known, the model can be evaluated according to the ratio of the predicted value to the real value. We mainly use the logicality regression to model and analyze the nearest neighbor, decision tree and lasso regression. The test error rates obtained by them are: 1: 13.8and 10.98 / 18.9 / 10.5 respectively. We also selected variables for logistic regression. The error rate of the selected test was 10.8, which was higher than that of the whole model. The test error rate of these models is slightly better than the lasso regression. This paper not only introduces the basic theoretical knowledge of data mining and credit evaluation, but also makes a profound analysis of the present situation of credit evaluation. With the advent of big data era, enterprises and even the government have a good opportunity to develop, but the effective use of data has become a difficult problem. This paper takes the personal character analysis of micro-loan user data as an example to show readers how to use data mining technology to discover the information of real enterprise data. The paper also introduces the principle of mining technology in detail, which is convenient for readers to study in the future. By using abundant customer data, constantly modifying the model parameters and optimizing the algorithm model, the loan risk can be reduced to a certain extent and the loan service quality can be improved. The problem solving methods in this paper can also be used for reference for the future social development: we can make the business intelligent through "big data" and "algorithm", so as to provide a good way of thinking for business decision making and enterprise development.
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:F832.4
【相似文献】
相关期刊论文 前10条
1 韩海萌;信息时代的指南针——数据挖掘[J];江苏统计;2002年05期
2 韩双霞;李萍;;数据挖掘:构筑企业竞争优势[J];金卡工程;2002年08期
3 李菁菁,邵培基,黄亦潇;数据挖掘在中国的现状和发展研究[J];管理工程学报;2004年03期
4 ;中国科学院数据挖掘与知识管理学术研讨会在京举行[J];管理评论;2004年07期
5 李峰;数据挖掘在企业中的应用[J];商场现代化;2004年15期
6 魏瑜,陆静;数据挖掘与统计学的关系浅析[J];沿海企业与科技;2005年09期
7 罗锦珠;数据挖掘与知识管理的结合应用[J];技术经济;2005年10期
8 袁卫,林桢顺,谢邦昌;工业领域的数据挖掘——改善流程,提高效率[J];中国统计;2005年04期
9 王琳;;统计学方法在数据挖掘中的应用[J];当代经理人;2006年02期
10 刘晓华;;数据挖掘在商业中的应用[J];商场现代化;2006年34期
相关会议论文 前10条
1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
相关重要报纸文章 前10条
1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年
5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年
6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年
7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年
8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年
9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年
相关博士学位论文 前10条
1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年
2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年
3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年
4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年
5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年
6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年
7 何伟全;云南高校学生意外伤害因素关联规则挖掘及风险管控体系研究[D];昆明理工大学;2015年
8 段功豪;基于多结构数据挖掘的滑坡灾害预测模型研究[D];中国地质大学;2016年
9 白晓明;基于数据挖掘的复合材料宏—细观力学模型研究[D];哈尔滨工业大学;2016年
10 蓝永豪(LAM Wing Ho);基于数据挖掘技术分析当代中医名家痤疮验方经验研究[D];南京中医药大学;2016年
相关硕士学位论文 前10条
1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年
2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年
3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年
4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年
5 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年
6 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年
7 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年
8 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年
9 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年
10 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年
,本文编号:2041962
本文链接:https://www.wllwen.com/guanlilunwen/bankxd/2041962.html