基于大数据的个人信用风险评估模型研究
本文关键词:基于大数据的个人信用风险评估模型研究
【摘要】:“互联网+”已经被提升为中国国家战略高度。以淘宝、京东等为代表的电子商务网站,以微信APP、QQ为代表的社交平台以及支付宝、微信支付为代表的在线支付工具已经深入到我们每个人的日常生活,互联网支付、众筹融资、P2P借贷、在线理财、网络贷款等各种形式的互联网金融服务在我国呈现出生机勃勃的发展景象,互联网和大数据已经对国民经济的很多领域以及商业模式产生了深远的影响。如何全面和准确地评估个人信用风险状况,并在此基础上开展个性化的授信金融服务,既是商业银行、小额贷款公司等传统金融机构风险控制的核心环节,也是P2P等新兴互联网金融机构业务经营过程中的痛点,持续攀升的不良贷款率更是倒逼这些金融机构不断提升风险管理水平。各类金融机构在个人信用风险评估环节中,过于倚重央行的个人征信系统,该系统收录的自然人数达8.6亿多,但其中仅有3亿多人有信贷记录,且信贷记录主要来源于商业银行和农村信用社等金融机构,在数据时效性、全面性和层次性上存在短板。大数据为个人信用风险评估提供了一种新的方法。通过将用户在互联网上网购、交易、社交等平台的商誉和行为数据进行整合和分析,将分散在不同网络平台和信贷机构的局部信息加工融合成为具有完整视图效果的全局信息。深度挖掘互联网大数据信息,将用户商誉和行为信息转化为信贷评级依据,开发大数据风控模型,弥补央行个人征信信息的不足,解决交易过程中的信息不对称的问题,既可以对互联网金融平台、小额贷款公司等金融机构提供一个有力的风险抓手,也可以为央行征信系统信贷数据缺失或者信用记录不好的用户提供一个获取信用类服务的机会。无论是线上还是线下的用户消费、社交数据,都有着不同于传统征信信息的独有特征,使得传统个人信用风险评估模型和方法在大数据环境下无法取得满意效果:(1)数据的稀疏性强。用户线上线下的行为散布广泛,极难全量收集和覆盖;用户行为偏好亦各有不同,在不同门类的行为差异很大。(2)数据覆盖面广。信息覆盖面广泛,支付宝或微信都有超4亿活跃用户,用户行为覆盖服装、书籍、租房、休闲、娱乐等各方面,单指标维度超过1000个。(3)单变量风险区分能力弱。不同于传统风险模型采用的历史履约情况、个人资产评估等强变量,消费或社交变量一般均为区分能力较弱的弱变量。传统信用风险评估模型在业务逻辑架构下,利用数据驱动或专家经验开发模型模板,最终结合逻辑回归、判别分析等统计分析模型得到精准的计量结果。然而在新的数据画像和业务情景下,原有的业务逻辑框架和传统统计分析模型的应用都受到严重限制。近几年,以决策树、神经网络等为代表的机器学习技术得到飞速发展,在信息识别、推荐引擎等领域都取得了出色的应用效果。如何结合传统风险评估模型体系和机器学习技术,在保证业务逻辑和评分广泛应用的前提下,更加精准的评估风险是一个值得研究的课题,本文的研究内容在这方面是一个有益的尝试。鉴于此,本文针对基于大数据的个人信用风险评估模型体系,重点研究下述关键内容:(1)通过对模型的数据基础、表现定义及逻辑、样本分类和抽样方案等建模基础信息进行详细分析,提出大数据环境下的个人信用风险评估模型——creditnet研究框架,将creditnet模型划分为三个研究阶段,逐步限定技术要点,开展模型构建研究。(2)针对creditnet模型研究框架的第一个阶段,本文将用户画像的概念引入个人信用风险评估领域,从六大维度构建用户信用画像,解决了大数据环境下个人信息的有效收集和组织问题,并通过变量衍生的方法增强单变量的风险区分能力。在此基础上,从数据收集、数据核对和数据清洗等方面对大数据的预处理方法进行了阐述,结合对单变量分析和多变量分析方法,为大数据环境下个人信用风险评估模型的研究奠定了数据基础。(3)针对creditnet模型研究框架的第二个阶段,本文将机器学习理论中的随机森林模型与logisitc回归模型进行结合,构建rf-l核模型,生成了一系列具有风险评估能力的子模型。在进行统计建模前,利用随机森林中的chaid决策树进行分析,并生成二元决策树变量,然后将随机森林模型的输出结果导入logistic回归模型中进行统计建模,为大数据信息转变为风险评估依据奠定了模型基础。(4)针对creditnet模型研究框架的第三个阶段,本文提出将机器学习理论中的adaboost集成学习算法应用到对rf-l核模型生成的一系列评估子模型的集成研究中,通过对不同评估能力的子模型进行集成,增强了最终模型的评估效果。(5)基于上述研究,进一步验证CreditNet模型的效果。本文从CreditNet模型的区分能力、稳定性等方面进行了测试,将CreditNet模型与其他模型的评估效果进行了对比分析,并在某股份制商业银行和某P2P公司的业务中对CreditNet模型进行了实证分析,对CreditNet模型的应用场景进行了展望。
【学位授予单位】:对外经济贸易大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:F832.4
【参考文献】
中国期刊全文数据库 前10条
1 刘海;卢慧;阮金花;田丙强;胡守忠;;基于“用户画像”挖掘的精准营销细分模型研究[J];丝绸;2015年12期
2 李进;;基于随机森林算法的绿色信贷信用风险评估研究[J];金融理论与实践;2015年11期
3 周星;丁立新;万润泽;葛强;;分类器集成算法研究[J];武汉大学学报(理学版);2015年06期
4 高俊光;刘旭;朱辰辰;;小微企业信用评估的数据挖掘方法综述[J];金融理论与实践;2015年10期
5 许琪;;阿里巴巴芝麻信用存在的问题及相关建议[J];金融会计;2015年09期
6 陈剑;王艳;郭杰群;;大数据金融及信用风险管理[J];网络新媒体技术;2015年03期
7 李学龙;龚海刚;;大数据系统综述[J];中国科学:信息科学;2015年01期
8 雷成;叶小勇;李小波;;深度学习技术及其在肿瘤分类中的应用[J];智能计算机与应用;2014年06期
9 萧超武;蔡文学;黄晓宇;陈康;;基于随机森林的个人信用评估模型研究及实证分析[J];管理现代化;2014年06期
10 王磊;范超;解明明;;数据挖掘模型在小企业主信用评分领域的应用[J];统计研究;2014年10期
中国博士学位论文全文数据库 前7条
1 张传新;我国商业银行信用风险度量研究[D];苏州大学;2012年
2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
3 刘迎春;我国商业银行信用风险度量和管理研究[D];东北财经大学;2011年
4 张明锦;基于特征选择的多变量数据分析方法及其在谱学研究中的应用[D];华东理工大学;2011年
5 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
6 刘冲;模拟电路故障诊断AdaBoost集成学习方法研究[D];大连海事大学;2011年
7 赵静娴;基于决策树的信用风险评估方法研究[D];天津大学;2009年
中国硕士学位论文全文数据库 前3条
1 王冠;基于用户互联网行为数据的个人征信评估体系建设分析[D];北京交通大学;2015年
2 陈s,
本文编号:1304191
本文链接:https://www.wllwen.com/shoufeilunwen/jjglbs/1304191.html