多分类器融合算法的研究及其在信贷风控中的应用
发布时间:2020-09-24 14:51
近年来,机器学习技术的飞速发展,以及其良好的鲁棒性和泛化性在模式识别、推荐系统等领域都取得了优异的应用效果。在分类问题中,不同的分类算法有着本身特定的适用条件,算法在学习的过程中存在着自身的性能极限,这种问题常使得单一算法在解决实际问题中往往存在着一些局限性。所以,利用不同分类算法的优势,对不同算法进行有效融合,“博采众长”,不仅可以更好的利用原始数据信息,也获得比单一算法更优越的准确性和泛化性能。随着我国经济的快速发展,消费信贷业务也增长迅速,住房按揭、助学贷款、信用卡等各种个人信贷业务的规模不断增长。但是相对于西方发达国家,我国个人征信系统的建设并不完善,大量人群的信用数据严重缺失,很多金融机构开始广泛采集用户的基本资料、信贷记录、信用卡使用情况等各种信息来构建自身的数据仓库。但是这些数据往往存在着样本量大、维度高、多元化、冗余化等特点,这也对传统机器学习模型的处理能力提出了挑战。针对传统风控算法存在的准确率低、容易过拟合的问题,本文首先提出一种基于投票机制的单层融合算法,并取得了较好的检测效果。首先,对实验数据进行特征工程和数据预处理操作,在保留数据信息不减少的前提下,降低数据维度,提高数据的质量,为算法训练打下好的前提条件。在算法训练阶段,相比传统的单一基学习器,创新性地采用强学习器作为基学习器,将每个基学习器训练最优。最后将融合后的单层算法与基学习器和目前已经研究出的算法进行比较,实验证明,算法具有较高的准确性与防止过拟合能力。为了进一步提升算法的准确性与泛化能力,本文利用Stacking集成框架,构建了两层分类器的混合多层算法,第一层模型采用分类精度较高的强学习器,第二层采用经过单层融合后产生的优秀算法。最后通过对比单一算法与其他融合算法的算法准确性,得出该算法的效果也要优于以上算法,这为金融机构建立个人信用评估系统提供了一种新的思路和方法,也为构建多层Stacking集成的个人信用评估模型提供了参考和借鉴。
【学位单位】:吉林大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP181;F832.4
【部分图文】:
图 2.3 神经网络结构示意图方法列的分类算法,每个算法有不同的适用范围。不可分问题。集成学习(ensemble learning),当组合形成高性能的强学习器的方法,使集成现实生活中,这种“集体智慧”使得很多问题将多个分类器集成起来而形成的新的分类算法最常见的集成思想有两种:Bagging 和 Boost
第 3 章 基于单层融合的风控算法3.3.1 特征缩放样本往往存在较多的数据记录,在进行数据探索过程中,我们通常先观察样本的前几条记录,来简单的探索下样本分布情况与各个特征单位是否统一。这里,为方便算法训练,统一为数值类型,我们对日期类型数据进行了离散化处理。根据出生日期距今时间,将出生日期转变为年龄这一数值类型数据;在实际还款日期上,账户多存在延期行为,所以根据实际还款日期与规定还款日期时间差将还款日期转变为延迟天数。所以,对于 2016 年 10 月到 2017 年 2 月的还款情况表示为-2:提前还清所有欠款;-1:还清当月欠款;1:逾期一个月;2:逾期两个月;一直到 8:逾期八个月。经过离散化处理后,我们首先观察数据前五条样本,如图 3.2 所示。
第 3 章 基于单层融合的风控算法特征标准化使每个特征的值有零均值(zero-mean)和单位方差(unit-variance)。这个方法在机器学习的算法中被广泛使用。例如:SVM、逻辑回归和神经网络。这个方法如公式 3.2 所示。 ……………………………………… (3.2)本文采用标准化的方式进行数据缩放,处理后的数据信息如图 3.3 所示,在此,列出前五条信息,用于实验结果展现。
本文编号:2825870
【学位单位】:吉林大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP181;F832.4
【部分图文】:
图 2.3 神经网络结构示意图方法列的分类算法,每个算法有不同的适用范围。不可分问题。集成学习(ensemble learning),当组合形成高性能的强学习器的方法,使集成现实生活中,这种“集体智慧”使得很多问题将多个分类器集成起来而形成的新的分类算法最常见的集成思想有两种:Bagging 和 Boost
第 3 章 基于单层融合的风控算法3.3.1 特征缩放样本往往存在较多的数据记录,在进行数据探索过程中,我们通常先观察样本的前几条记录,来简单的探索下样本分布情况与各个特征单位是否统一。这里,为方便算法训练,统一为数值类型,我们对日期类型数据进行了离散化处理。根据出生日期距今时间,将出生日期转变为年龄这一数值类型数据;在实际还款日期上,账户多存在延期行为,所以根据实际还款日期与规定还款日期时间差将还款日期转变为延迟天数。所以,对于 2016 年 10 月到 2017 年 2 月的还款情况表示为-2:提前还清所有欠款;-1:还清当月欠款;1:逾期一个月;2:逾期两个月;一直到 8:逾期八个月。经过离散化处理后,我们首先观察数据前五条样本,如图 3.2 所示。
第 3 章 基于单层融合的风控算法特征标准化使每个特征的值有零均值(zero-mean)和单位方差(unit-variance)。这个方法在机器学习的算法中被广泛使用。例如:SVM、逻辑回归和神经网络。这个方法如公式 3.2 所示。 ……………………………………… (3.2)本文采用标准化的方式进行数据缩放,处理后的数据信息如图 3.3 所示,在此,列出前五条信息,用于实验结果展现。
【参考文献】
相关期刊论文 前8条
1 陈念;唐振民;;加权投票采样学习在用户信用评级中的应用[J];计算机工程与应用;2014年21期
2 郭小燕;张明;;带权重的RBF神经网络银行个人信用评价方法[J];计算机工程与应用;2013年05期
3 师飞龙;李岚;徐楠楠;;基于多数投票的DBC人脸识别[J];计算机工程与应用;2014年11期
4 钱叶魁;陈鸣;叶立新;刘凤荣;朱少卫;张晗;;基于多尺度主成分分析的全网络异常检测方法[J];软件学报;2012年02期
5 姜明辉;谢行恒;王树林;温潇;;个人信用评估的Logistic-RBF组合模型[J];哈尔滨工业大学学报;2007年07期
6 何建国;蒋国银;田波;;基于改进型BP神经网络的信用评估系统研究[J];计算机工程与设计;2006年04期
7 杨杰,吴中如;观测数据拟合分析中的多重共线性问题[J];四川大学学报(工程科学版);2005年05期
8 石庆焱;一个基于神经网络——Logistic回归的混合两阶段个人信用评分模型研究[J];统计研究;2005年05期
本文编号:2825870
本文链接:https://www.wllwen.com/jingjilunwen/touziyanjiulunwen/2825870.html