个人信用自动化评估方法的研究和应用
发布时间:2021-06-08 08:02
随着计算机、数据库和移动互联网技术的快速发展,各行业中累积的数据量和形态越来越丰富。征信不再局限于传统的金融领域,逐步向多行业,大流量,小实体的方式转变。运动,社交,交易,通讯等数据都有可能被采集到征信系统中,给传统征信业务带来巨大挑战。从模型角度,大量数据集的并入,导致样本指标非常稀疏,模型稳定性不足。从系统角度,各类数据形态的整合,以及针对不同场景的模型灵活配置,大量用户的业务并发,都对系统提出了更高的要求。本文从模型和系统两方面着手,对传统征信的自动化评估方法进行了改进。为了有效解决数据稀疏性的问题,先根据指标覆盖度对用户进行分群,再根据不同分群提炼的模型进行组合,提炼出基于用户分群的组合模型算法。并结合自动化决策系统,灵活采集和调用大量的征信数据集,同时支持用户在无需编码的情况下对整个信用决策流程进行自定义设计,减少人工介入,将采集、决策和监控体系完整融合,使整个信用评估流程变得更准确,更高效。理论上,借鉴了大量国内外个人征信产品的案例,研究同类产品中的信用评估方法。包括基于专家评分法的信用评估理论,和基于逻辑回归,朴素贝叶斯,决策树,随机森林等多种单一模型的信用评估理论等。但...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
图2-1个人信用评估一般过程
上海交通大学工程硕士学位论文第二章个人信用评估理论研究11果输入变量和输出变量都为分类的,通常使用LOGISTIC回归;如果输入变量既有分类也有连续的,输出变量为分类的,也可以使用LOGISTIC回归;如果输入变量既有分类变量也有连续变量,输出变量为连续的,通常使用协方差分析[99]。以下是个人信用评估领域应用较为广泛的6种建模方法。2.3.1基于逻辑回归算法逻辑回归是银行等金融机构应用最广的信用评估模型。由于个人信用评估中的变量通常既包含连续值也包含分类值,比如年龄是连续变量,性别、学历等都是分类变量,当然也可以将连续变量转换为分类变量。而模型评估的结果通常是判断“是”或“否”,也可以认为是发生一个事件的概率[26]。如果把事件发生的概率记为p,则可以得到以下LOGISTIC回归函数:(2-1)(2-2)如图2-2所示,LOGISTIC函数具有S型分布,无论xi取任何值,是否发生的概率p均在0到1之间。这样就完美的解释了因变量和自变量之间的模型关系。图2-2LOGISTIC函数曲线Fig.2-2Logisticregressioncurve为了方便计算,将公式2-1和2-2进行变换可得:[25])(11)|1(iiixexyp[25])()(1)|0(iixxiieexyp[25]))|0()|1(ln(iiiiixxypxyp
上海交通大学工程硕士学位论文第二章个人信用评估理论研究14本的影响,可能会导致树的结构过于复杂,而在随机森林中可以避免这样的问题。随机森林是在N个训练样本集中,每次随机抽取N个有放回的样本子集,这样在子集中就会存在重复的样本,也会有些样本被随机排除在外,选取过程如图2-3所示。图2-3随机森林样本选择Fig.2-3Selectionofrandomforest然后随机森林根据每个生成的子集建立决策树,当有一个新的样本需要预测时,就将这个样本通过每个决策树进行判断,最后投票决定新样子所属的分类。为了进一步加大每棵树的差异性,减少特征属性间的相关性,每次建立子决策树的时候也只会随机选取以一部分特征属性,通常会选取总特征的平方根或log2(特征数)+1,这样构建的每棵树都能侧重于区分不同的特征领域,提升整体分类的精度。2.4改进的组合模型理论2.4.1传统模型的不足现有的大部分征信产品都来源于传统金融机构,其采集到的数据源往往比较规范,数据质量非常高,指标覆盖度也很全面。但在互联网金融爆发的趋势下,征信数据源变得越来越广泛,可能包含社交数据,运动轨迹,设备信息,理财平台等等,但几乎没有一个样本可以采集到这里所有的数据源,导致指标的稀疏度严重上升。传统征信体系中的专家评分卡或单一模型理论比较适用于指标覆盖度较高的情况,当各样本间的指标覆盖度差异较大时,由于各类数据集对模型的拟合效
【参考文献】:
期刊论文
[1]基于少量标注数据的半监督K-means算法[J]. 曹奇敏,刘鸿霞. 电脑编程技巧与维护. 2017(13)
[2]基于医疗数据的K-means算法优化研究[J]. 宋欣霞,金卫. 中国数字医学. 2016(08)
[3]对数据挖掘中K-means聚类算法的改进研究[J]. 韩龙. 无线互联科技. 2013(02)
博士论文
[1]个人信用风险评估理论与方法的拓展研究[D]. 帅理.电子科技大学 2015
[2]中国个人信用管理体系建设研究[D]. 孙亚南.中国人民大学 2008
硕士论文
[1]基于BP优化算法的个人信用评价模型研究[D]. 周兵.中南林业科技大学 2015
[2]基于BP神经网络的P2P信贷个人信用评价模型研究[D]. 张澜觉.云南财经大学 2015
[3]多种分类模型在个人信用评估中的应用[D]. 杨蕴涵.重庆大学 2015
[4]个人信用评分组合模型研究[D]. 张飞.电子科技大学 2015
[5]基于模糊神经网络的个人信用风险评估[D]. 张佳维.内蒙古大学 2014
[6]基于数据挖掘技术的商业银行个人信用评分模型研究[D]. 周轩.湖南大学 2014
[7]基于稀疏贝叶斯学习的个人信用评估[D]. 王会军.西南财经大学 2014
[8]我国个人信用评分体系建设研究[D]. 胡萍娥.北京化工大学 2013
[9]网络交易中的个人信用评价研究[D]. 杨静.黑龙江大学 2013
[10]我国个人信用体系建设研究[D]. 林雅婕.中国政法大学 2013
本文编号:3218010
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
图2-1个人信用评估一般过程
上海交通大学工程硕士学位论文第二章个人信用评估理论研究11果输入变量和输出变量都为分类的,通常使用LOGISTIC回归;如果输入变量既有分类也有连续的,输出变量为分类的,也可以使用LOGISTIC回归;如果输入变量既有分类变量也有连续变量,输出变量为连续的,通常使用协方差分析[99]。以下是个人信用评估领域应用较为广泛的6种建模方法。2.3.1基于逻辑回归算法逻辑回归是银行等金融机构应用最广的信用评估模型。由于个人信用评估中的变量通常既包含连续值也包含分类值,比如年龄是连续变量,性别、学历等都是分类变量,当然也可以将连续变量转换为分类变量。而模型评估的结果通常是判断“是”或“否”,也可以认为是发生一个事件的概率[26]。如果把事件发生的概率记为p,则可以得到以下LOGISTIC回归函数:(2-1)(2-2)如图2-2所示,LOGISTIC函数具有S型分布,无论xi取任何值,是否发生的概率p均在0到1之间。这样就完美的解释了因变量和自变量之间的模型关系。图2-2LOGISTIC函数曲线Fig.2-2Logisticregressioncurve为了方便计算,将公式2-1和2-2进行变换可得:[25])(11)|1(iiixexyp[25])()(1)|0(iixxiieexyp[25]))|0()|1(ln(iiiiixxypxyp
上海交通大学工程硕士学位论文第二章个人信用评估理论研究14本的影响,可能会导致树的结构过于复杂,而在随机森林中可以避免这样的问题。随机森林是在N个训练样本集中,每次随机抽取N个有放回的样本子集,这样在子集中就会存在重复的样本,也会有些样本被随机排除在外,选取过程如图2-3所示。图2-3随机森林样本选择Fig.2-3Selectionofrandomforest然后随机森林根据每个生成的子集建立决策树,当有一个新的样本需要预测时,就将这个样本通过每个决策树进行判断,最后投票决定新样子所属的分类。为了进一步加大每棵树的差异性,减少特征属性间的相关性,每次建立子决策树的时候也只会随机选取以一部分特征属性,通常会选取总特征的平方根或log2(特征数)+1,这样构建的每棵树都能侧重于区分不同的特征领域,提升整体分类的精度。2.4改进的组合模型理论2.4.1传统模型的不足现有的大部分征信产品都来源于传统金融机构,其采集到的数据源往往比较规范,数据质量非常高,指标覆盖度也很全面。但在互联网金融爆发的趋势下,征信数据源变得越来越广泛,可能包含社交数据,运动轨迹,设备信息,理财平台等等,但几乎没有一个样本可以采集到这里所有的数据源,导致指标的稀疏度严重上升。传统征信体系中的专家评分卡或单一模型理论比较适用于指标覆盖度较高的情况,当各样本间的指标覆盖度差异较大时,由于各类数据集对模型的拟合效
【参考文献】:
期刊论文
[1]基于少量标注数据的半监督K-means算法[J]. 曹奇敏,刘鸿霞. 电脑编程技巧与维护. 2017(13)
[2]基于医疗数据的K-means算法优化研究[J]. 宋欣霞,金卫. 中国数字医学. 2016(08)
[3]对数据挖掘中K-means聚类算法的改进研究[J]. 韩龙. 无线互联科技. 2013(02)
博士论文
[1]个人信用风险评估理论与方法的拓展研究[D]. 帅理.电子科技大学 2015
[2]中国个人信用管理体系建设研究[D]. 孙亚南.中国人民大学 2008
硕士论文
[1]基于BP优化算法的个人信用评价模型研究[D]. 周兵.中南林业科技大学 2015
[2]基于BP神经网络的P2P信贷个人信用评价模型研究[D]. 张澜觉.云南财经大学 2015
[3]多种分类模型在个人信用评估中的应用[D]. 杨蕴涵.重庆大学 2015
[4]个人信用评分组合模型研究[D]. 张飞.电子科技大学 2015
[5]基于模糊神经网络的个人信用风险评估[D]. 张佳维.内蒙古大学 2014
[6]基于数据挖掘技术的商业银行个人信用评分模型研究[D]. 周轩.湖南大学 2014
[7]基于稀疏贝叶斯学习的个人信用评估[D]. 王会军.西南财经大学 2014
[8]我国个人信用评分体系建设研究[D]. 胡萍娥.北京化工大学 2013
[9]网络交易中的个人信用评价研究[D]. 杨静.黑龙江大学 2013
[10]我国个人信用体系建设研究[D]. 林雅婕.中国政法大学 2013
本文编号:3218010
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3218010.html