当前位置:主页 > 经济论文 > 国际贸易论文 >

缺失数据下的P2P借贷违约风险评价方法研究

发布时间:2020-06-07 21:16
【摘要】:P2P借贷的虚拟性和信息的不对称性使其面临着比传统金融模式更严峻的违约风险,有效的风险管控是P2P平台稳健发展的基本保障。然而,P2P借贷数据的广泛性和多样性使其面临着更严重的缺失问题。如何利用P2P平台的不完全数据,完成有效的违约风险建模是本文需要解决的问题。本文将P2P借贷中常见数据缺失问题细分为数据属性值的缺失和类别标签的缺失,并探索如何利用缺失数据提高模型的违约风险预测性能。针对数据属性值缺失的问题,传统分类算法需要首先基于数据随机缺失的假设填补缺失数据,然后训练模型。然而缺失数据通常是三种缺失类型混合的,单一的缺失假设会影响数据填补结果,从而影响模型效果。本文使用对缺失数据鲁棒性较强的树模型来建模,并提出基于LightGBM分类算法构建违约风险评价模型,不仅不需要对缺失数据进行预填补,而且具有较高的效率。最后,基于人人贷平台的数据进行实证分析,验证了直接基于LightGBM建模优于传统填补方法后模型效果。针对类别标签缺失的问题,传统违约风险评价仅使用有标签样本建模。然而模型的应用对象是全样本,由此带来的样本选择偏差问题会影响模型泛化能力,需要对无标签样本进行拒绝推断来校正样本选择偏差。本文使用半监督方法构建违约风险模型,并提出基于样本和特征双重差异的协同训练模型TRICMV。该模型采用了基于“多视图学习”的模型投票机制和基于“噪音学习理论”的自适应的模型迭代机制,可以控制加入模型中的噪音。最后,实证分析结果验证了TRICMV模型的有效性。
【图文】:

流程图,平台,流程,违约风险


此外,拒绝样本(无标签样本)中存在着大量的标的信息和违的违约风险判别能力。如何利用无标签样本(即拒绝样本)校提高模型的违约风险评价能力是本文需要解决的问题。 P2P 平台的属性值缺失和类别标签缺失这两种缺失情况的数据接删除的方法案进行处理。以特征值缺失的情况为例,肖志文[5]常具有一定的机会主义倾向,在提交个人资料的时候,会匿去,从而导致数据缺失。以类别标签缺失的情况为例,违约风险概率也就越大,即样本标签缺失的概率越大。P2P 平台的两种数非随机性,,直接删除会改变数据样本的分布,导致样本选择偏样本不是来自总体的简单随机样本。利用有偏样本训练违约风加模型的泛化误差,从而降低模型的违约风险评价性能。此外能具有一定的违约风险判别能力。如何有效地利用不完全数据数据来提高违约风险评价性能是对 P2P 平台的借款人进行有效关键。

生长策略


机制将在 3.2 节中作详细介绍。复杂和耗时和问题,LightGBM 模的 one-side 采样、互斥特征绑定方作详细介绍。层次结构是需要解决的问题。我们做一个平衡,以防止模型的过拟合 生长策略,如图 3.1 所示。因为对要对其进行分裂和搜索。Level-w同一层的所有叶节点,会影响模策略:Leaf-wise 生长策略,如图,每次从当前所有叶节点中,寻找。因此,与 Level-wise 相比,L时获得更好的精度。Leaf-wise 的合。因此,LightGBM 在 Leaf-wisMax Depth),以防止模型过拟合
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F832.4;F724.6

【相似文献】

相关期刊论文 前10条

1 康春花;孙金玲;孙小坚;曾平飞;;缺失数据比率和处理方法对非随机缺失数据能力参数估计准确性的影响[J];江西师范大学学报(自然科学版);2017年03期

2 董学思;林丽娟;赵杨;魏永越;戴俊程;陈峰;;多组学联合缺失数据填补方法的评价[J];中国卫生统计;2017年04期

3 杨金英;崔朝杰;;图模型方法用于二值变量相关性分析中缺失数据的估计[J];中国卫生统计;2012年05期

4 许凯;何道江;;有缺失数据的条件独立正态母体中参数的最优同变估计[J];数学学报(中文版);2016年06期

5 王军;李建勋;韩山;王兴;;一种效能评估中缺失数据的填充方法[J];上海交通大学学报;2017年02期

6 吴洁琼;吕小纳;党志军;;网络高并发信息的缺失数据修复方法仿真[J];信息通信;2017年11期

7 喻成林;黄强;李钢;;观测站缺失数据修复的神经网络模型研究[J];矿山测量;2014年01期

8 帅平;李晓松;周晓华;刘玉萍;;缺失数据统计处理方法的研究进展[J];中国卫生统计;2013年01期

9 张伟;冯萍;赵永红;袁佳英;李梅;;加权估计方程用于缺失数据的处理[J];中国卫生统计;2013年03期

10 詹棠森;;缺失数据调整修正优化磨光法研究及陶瓷中的应用[J];中国陶瓷;2012年06期

相关会议论文 前10条

1 印明辉;秦婷婷;伏振;严明明;尹平;;贝叶斯累加回归树模型处理缺失数据研究[A];2017年中国卫生统计学学术年会论文集[C];2017年

2 耿直;葛丹丹;;纵向研究非随机缺失数据分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年

3 刘红云;;追踪研究中非随机缺失数据的处理:基于模型的方法及其应用[A];第十五届全国心理学学术会议论文摘要集[C];2012年

4 管河山;姜青山;Steven X.Wei;;一种处理缺失数据的新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

5 肖悦;刘红云;;密集型追踪数据中数据的缺失机制及缺失比例对时变效应模型估计精度的影响[A];第二十届全国心理学学术会议--心理学与国民心理健康摘要集[C];2017年

6 孙金玲;;混合测验中非随机缺失数据的缺失比率与处理方法对IRT参数估计的影响[A];第十八届全国心理学学术会议摘要集——心理学与社会发展[C];2015年

7 李晓煦;侯杰泰;;结构方程中缺失数据的处理:FIML,EM与MI[A];全国教育与心理统计测量学术年会论文摘要集[C];2006年

8 周晓东;汤银才;费鹤良;;定数转换步加试验缺失数据场合下的参数估计[A];中国现场统计研究会第十三届学术年会论文集[C];2007年

9 叶素静;唐文清;张敏强;;追踪研究中缺失数据的处理方法述评[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年

10 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年

相关重要报纸文章 前1条

1 刘若帆邋宋林;诗邦金A6+1:凭借其质提高其量[N];农资导报;2008年

相关博士学位论文 前10条

1 丁先文;缺失数据模型的估计与变量选择[D];云南大学;2018年

2 高航;面向缺失数据的机器学习算法研究[D];国防科学技术大学;2016年

3 唐琳;带有不可忽略缺失数据的广义半参数非线性模型的统计推断[D];云南大学;2017年

4 龚奇源;面向数据发布的数据匿名技术研究[D];东南大学;2016年

5 陆福忠;数据缺失下的分布函数估计问题[D];复旦大学;2007年

6 骆汝九;多指标综合评价的非参数方法和缺失数据的聚类方法研究[D];扬州大学;2011年

7 郭东林;缺失数据下几类回归模型的估计方法与理论[D];北京工业大学;2017年

8 马友;基于QoS缺失数据预测的个性化Web服务推荐方法研究[D];北京邮电大学;2015年

9 罗显贵;带缺失数据列联表与半参数非线性动态因子模型的统计推断[D];云南大学;2015年

10 祝丽萍;几种缺失数据和高维数据模型的统计分析[D];山东大学;2012年

相关硕士学位论文 前10条

1 许天歌;缺失数据下的P2P借贷违约风险评价方法研究[D];合肥工业大学;2019年

2 宋雅婷;缺失数据处理方法及其在临床试验中的应用[D];华中科技大学;2019年

3 石章波;缺失数据下众数线性模型的统计诊断[D];云南大学;2018年

4 陈婉娇;缺失数据插补方法及其在医学领域的应用研究[D];华南理工大学;2019年

5 王玉梅;缺失数据下基于众数回归两类半参数模型估计与变量选择[D];兰州理工大学;2019年

6 仝倩;带缺失数据的半参数非线性模型基于经验似然的统计诊断[D];南京理工大学;2018年

7 张文佳;缺失数据下变系数部分非线性模型的参数估计[D];南京理工大学;2018年

8 李佳妮;缺失数据统计方法及其敏感性的研究[D];哈尔滨工业大学;2018年

9 杜丽媛;含有缺失和不可适用数据的古生物谱系树构建方法研究[D];西北大学;2018年

10 陈琨;边坡自动化监测数据缺失填补算法研究[D];重庆交通大学;2018年



本文编号:2702013

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2702013.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户03729***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com