当前位置:主页 > 经济论文 > 信息经济论文 >

基于移动电信数据个人征信模型研究

发布时间:2018-04-30 19:01

  本文选题:征信模型 + 电信数据 ; 参考:《北京邮电大学》2017年硕士论文


【摘要】:随着社会经济的不断发展,信用评价对个人获得更加便捷的服务和社会运行成本降低都有着积极意义。我国个人征信起步晚,目前信用记录覆盖率较低,但需求旺盛。电信数据包含了个人身份信息、消费记录、欠费违约等和信用评价相关度高的数据,具有质量高、用户多和维度丰富等特点,适合用于个人信用评价。但该方面研究工作较少,因此本文对利用电信数据做信用评价进行了探索分析。本文首先对常用征信模型进行了分析比较。基于统计学的模型有逻辑回归、支持向量机和决策树等,基于智能方法的有神经网络等。本文对上述模型都进行了理论分析和推导,并给出了在实际应用中常见问题比如过拟合等的解决方案。然后对电信数据进行理解分析,参考FICO(Fair IsaacCompany)模型并利用相关分析等方法选取了建模需要的特征数据。随后对数据进行了清洗与预处理包括,填补空缺值、剔除异常值、数据离散化和归一化。预处理之后分析数据发现部分特征间存在多重共线性,不符合逻辑回归模型的假设前提,所以对此采用了主成分分析处理,通过降维解决共线性问题。预处理完毕后,对电信数据进行探索分析,更深入的去认识特征的分布规律和与征信的关系。单个模型去做信用评价有时效果有限,本文将机器学习中集成的思想引入,构建基于随机森林的个人征信模型。结合原始电信数据有冗余信息和类别不平衡特点,在单颗决策树的基础上引入分类别有重复采样并随机选择特征子集,训练多个具有差异的决策树,然后将其组合起来预测输出。模型训练后测试表明其预测精度、准确率、召回率和F1均优于常用征信模型。
[Abstract]:With the development of social economy, credit evaluation has a positive significance for individuals to obtain more convenient services and reduce social operating costs. Our country personal credit investigation starts late, the credit record coverage rate is low at present, but the demand is exuberant. Telecommunication data includes personal identity information, consumption record, default of payment and credit evaluation. It has the characteristics of high quality, multiple users and rich dimensions. It is suitable for personal credit evaluation. However, there is little research work in this field, so this paper explores and analyzes the credit evaluation using telecommunication data. In this paper, the common credit model is analyzed and compared. The models based on statistics include logical regression, support vector machine and decision tree, and neural networks based on intelligent methods. In this paper, the above models are theoretically analyzed and deduced, and the solutions of common problems such as over-fitting in practical application are given. Then the telecom data is understood and analyzed, and the characteristic data of modeling is selected by referring to the FICO(Fair Isaac Company model and using correlation analysis and other methods. Then the data is cleaned and preprocessed, including filling the vacancy value, eliminating the outlier value, discretization and normalization of the data. After preprocessing, it is found that there is multiple collinearity among some features, which does not accord with the premise of logical regression model, so principal component analysis (PCA) is used to solve the problem of collinearity through dimension reduction. After preprocessing, the telecom data is explored and analyzed to understand the distribution law of the characteristics and the relationship between the characteristics and credit information. The effect of a single model to do credit evaluation is sometimes limited. This paper introduces the idea of integration in machine learning to construct a personal credit model based on random forest. Combined with the redundant information and class imbalance of the original telecommunication data, this paper introduces subcategory repeated sampling and random selection of feature subsets on the basis of a single decision tree, and trains multiple decision trees with differences. Then combine it to predict the output. The model training test shows that its prediction accuracy, accuracy, recall rate and F1 are better than those of common credit model.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:F626;TP311.13

【相似文献】

相关期刊论文 前10条

1 钟楚男;对银行优先建立个人征信制度的建议[J];中国信用卡;2001年07期

2 张敏;国外个人征信工作经验的启示[J];中国信用卡;2002年02期

3 卢小龙;朱建强;朱杰;林鸿;宁翔;;个人征信系统总体框架的设计[J];金融电子化;2005年03期

4 张杏英;;个人征信系统试运行存在三方面问题 完善系统运行须多管齐下[J];金融电子化;2005年09期

5 方家平;;手机欠费纳入个人征信应该缓行[J];IT时代周刊;2007年Z1期

6 ;央行:个人征信不良信息超过5年应当删除[J];金融科技时代;2013年03期

7 王征宇 ,张侠 ,华新雷 ,马恩华;关于发展我国个人征信数据系统的一些思考和建议[J];中国金融电脑;2004年05期

8 胡小明;;信用系统定位研究[J];电子政务;2010年04期

9 ;央行考察个人征信项目工作[J];金融电子化;2004年01期

10 王雪玉;;新版个人征信报告上线,告别终身不良记录[J];金融科技时代;2012年12期

相关会议论文 前10条

1 钱林晓;王一涛;;对应试教育条件下学生学习行为的模型分析[A];2005年中国教育经济学年会会议论文集[C];2005年

2 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

3 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年

4 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年

5 高林;刘喜梅;;多模型中权值确定的新方法及其应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年

6 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年

7 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年

8 朱萍;刘伟泽;万立滨;;基于实证研究的知识管理路线、方法和模型分析[A];航空工业档案学会七届四次理事会暨2013年度优秀论文交流会论文集[C];2013年

9 潘洁;周宗放;;全流通下KMV模型中的违约点修正及实证研究[A];中国企业运筹学[C];2009年

10 肖田元;;仿真是基于模型的活动[A];新观点新学说学术沙龙文集37:仿真是基于模型的实验吗[C];2009年

相关重要报纸文章 前10条

1 本报记者 张夏楠;个人征信“看上去很美”[N];华夏时报;2014年

2 巴曙松 陈华良;个人征信 不仅是个人的问题[N];中国证券报;2005年

3 孙瑞灼;“手机欠费纳入个人征信”应建立申诉制度[N];中国企业报;2007年

4 贾磊;个人征信求全更应求真[N];经济参考报;2006年

5 叶雷;立法未行的个人征信是变相“霸王条款”[N];人民代表报;2007年

6 孙瑞灼;立法规范要与个人征信同行[N];法制日报;2010年

7 牛明霞 作者单位 农总行信贷管理部;个人征信信息:居民第二张“身份证”[N];中国城乡金融报;2007年

8 实习记者 孙书尧;个人征信新规运行 消费者更安心[N];消费日报;2012年

9 本报记者 张世豪;我省明年有望实现个人征信互联网查询[N];郑州日报;2013年

10 贾磊;个人征信亟待提高含金量[N];中国经济导报;2006年

相关博士学位论文 前10条

1 艾茜;个人征信法律制度研究[D];中国政法大学;2006年

2 李瑜;多选题认知诊断测验编制及多策略的多选题认知诊断模型的开发[D];江西师范大学;2014年

3 康慧燕;复杂网络上带有潜伏期的传染病动力学模型研究[D];上海大学;2015年

4 郭玮;基于多因素集成的疏散场模型研究[D];北京化工大学;2015年

5 张天蛟;产漂流性卵小型鱼类的生态位建模及分析[D];中国农业大学;2016年

6 张会敏;基于小域估计的贫困指标测度方法与模型研究[D];天津财经大学;2015年

7 宋泽芳;基于投资者情绪效应的均值—方差关系模型研究[D];广州大学;2016年

8 徐帆;笼养食蟹猴自发抑郁模型的创建与验证[D];重庆医科大学;2015年

9 毕仁贵;考虑相关性的不确定凸集模型与非概率可靠性分析方法[D];湖南大学;2015年

10 卢伟;小时步长森林碳循环模型(BEPS)参数优化及应用研究[D];东北林业大学;2016年

相关硕士学位论文 前10条

1 唐亚平;基于移动电信数据个人征信模型研究[D];北京邮电大学;2017年

2 李卫;个人征信与信息主体权利保护研究[D];华中师范大学;2017年

3 刘正阳;个人征信中个人信用权保护研究[D];华东政法大学;2016年

4 朱才广;我国个人征信发展模式研究[D];暨南大学;2016年

5 朱莎;我国个人征信信息主体权益保护研究[D];上海交通大学;2015年

6 张斌;互联网条件下个人征信市场化的法律规制[D];西南财经大学;2016年

7 侯萌;大数据背景下的个人征信研究[D];对外经济贸易大学;2016年

8 赵克非;大数据下的个人征信体系研究[D];浙江大学;2017年

9 李思雷;论我国个人征信权利结构[D];西南政法大学;2016年

10 黄艳菲;个人征信中信用权保护研究[D];华侨大学;2017年



本文编号:1825785

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/xxjj/1825785.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户87e9e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com