基于智能特征选择和集成学习的互联网金融信贷风险预测
发布时间:2022-02-11 16:29
大数据、人工智能技术的研究和应用正在不断加速金融产业的发展。许多金融信贷机构已经将数据挖掘技术应用于信用贷款风险预测、信用评分,从海量的客户数据中抽取可以识别客户风险的有效信息,进一步实现精细化的信贷审批和额度分配。由于客户数据存在高维度、类别极度不均衡、稀疏等问题。目前,信贷风险预测的研究主要集中在特征工程和信用评估模型上。特征工程可以从原始数据中构造出特征数据,评估模型将客户的特征数据进行模式识别。本文从特征工程-模型构建的角度出发,对高维的客户数据进行特征选择,并利用特征选择后的数据建立基于集成学习的风险预测模型。基于智能特征选择的互联网金融信贷风险预测包含以下创新研究:(1)针对客户数据存在高维度且特征冗余等问题,提出一种改进的基于头脑风暴优化算法的特征选择方法。由于传统特征选择方法性能不佳,且现有的智能算法优化效率低、收敛慢。因此,本文通过整合头脑风暴优化算法的空间探索能力和强化学习对规则的推理能力,定义适合特征选择问题的动作-状态函数,设计两种特征子集搜索方法:全局强化搜索和局部变邻域搜索,并执行基于动态更新概率的特征选择方式。(2)针对客户数据存在类别极度不均衡、稀疏且存...
【文章来源】:深圳大学广东省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
研究方案框架图
基于智能特征选择和集成学习的互联网金融信贷风险预测7第2章研究综述由于本文采用特征工程-模型构建的研究架构,且将特征选择作为特征工程的主要研究手段。因此本章讲对特征选择方法,包括经典的特征选择和基于智能优化算法的特征选择方法进行综述。除此之外,鉴于互联网信贷风险预测问题可归纳为分类问题,本章对互联网信贷风险预测的分类算法进行综述。2.1特征选择方法综述2.1.1经典的特征选择方法图2特征选择的基本流程在风险预测业务中,数据的维数越来越高,给现有的模式识别带来了严峻的挑战,如维度诅咒:过多的特征使得学习模型更容易过度拟合和表现不佳。为了解决维度灾难,学术界们研究了降维方法。特征选择(FeatureSelection,FS)是一种广泛应用的降维方法,其目的是通过减少不相关和冗余的特征来获得一个紧凑的数据结构[19]。它也被视为从原始特征中选择子集的过程[20]。从传统的角度定义,给定m个原始特征,从中挑选n(m>n,且n>0)个特征的特征子集。因此,遍历特征子集的复杂度为2"1。随着数据维度的增加,问题的复杂性也随之增大,搜索空间呈指数上升,寻找最优特征子集的难度也随之增大。特征选择是一个NP难题,主要体现在搜索空间大,多项式有限时间复杂度内无法求得最优解[13]。特征选择还存在特征交互现象:特征之间可以有双向、三向或复杂的多通道交互,一个与目标概念本身相关性较弱的特征,如果与一些互补特征结合使用,可以显著提高学习器性能。相反,当与一些互斥特征一起使用时,单独相关的特征可能变得多余,移除或选择这些特征可能会错过最佳特征子集[12]。学术界对于特征选择的一般过程定义为图2。其中,子集评估(特征评估)和子集生成(搜索策略)是两个关键的部分[21],即探索定义域空间以找到最佳特征子集?
基于智能特征选择和集成学习的互联网金融信贷风险预测10头脑风暴优化(BSO)等。一般地,基于智能优化算法的特征选择方法流程如图3所示,由于智能优化算法的种群交流和个体更新方式是影响特征选择性能的主要因素,因此研究者们把研究的重点转为探索更优的更新策略和探索机制。由于不同的智能优化算法方法有不同的种群交流机制和个体更新方式,因此本小节综述主流的方法并且针对优缺点进行论述,给出选择合适的智能优化算法的原因。在实际操作过程当中,常用的搜索方案的编码有两类:连续型和离散型。假设原始数据集的特征个数为m,期望所选特征子集尺寸为n。连续型编码是指可行解的维度为n,且生成的特征集合是原始特征集合的不重复子集。离散型编码的可行解维度为m,对于每个维度的特征,使用1来表示该特征被选择,使用0来表示该特征不被选择。由于智能优化算法是一种在连续空间更新的方法,则使用预定的策略来决定0/1编码,通常设定一个阈值,如果每个个体的在该维度上的向量值大于这个阈值,则该特征被编码为1,反之编码为0。连续型编码能够规定特征子集的尺寸,从而缩小的搜索空间和可行解的范围,缺点是难以通过先验知识找到最佳特征子集尺寸,可能导致无法找到全局最优解。因此,离散型编码的智能优化算法方法更加灵活,也避免了错过最优解的困境,因此成为学者们普遍采用的方法[12]。图3基于智能优化算法的特征选择方法基本流程遗传优化算法:遗传算法很可能是第一种广泛应用于特征选择问题的智能优化技术,其使用二进制字符串的自然表示形式,其中1表示相应的特征被选择,0表示该特征不被选择。为了提高性能,人们对GAs提出了许多新的改进,主要集中在搜索机制、表示和适应度函数上。一些早期的工作[38][39]通过研究种群大孝变异、交叉和繁殖
【参考文献】:
期刊论文
[1]基于强化学习的特征选择算法[J]. 朱振国,赵凯旋,刘民康. 计算机系统应用. 2018(10)
[2]数据驱动的发展式头脑风暴优化算法综述[J]. 程适,陈俊风,孙奕菲,史玉回. 郑州大学学报(工学版). 2018(03)
[3]阿里巴巴和京东个人信用评分体系差异性研究[J]. 刘奕雄. 金融经济. 2017(14)
[4]美国ZestFinance公司大数据征信实践[J]. 刘新海,丁伟. 征信. 2015(08)
[5]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
博士论文
[1]医疗保险大数据中的欺诈检测关键问题研究[D]. 高永昌.山东大学 2018
[2]基于判别分析和期望违约率方法的信用风险度量及管理研究[D]. 张玲.湖南大学 2005
硕士论文
[1]数据挖掘技术在征信数据中的应用研究[D]. 陈逸杰.南京邮电大学 2019
[2]基于非均衡数据处理和特征选择的信贷风险评估算法研究[D]. 李霜.西北大学 2019
[3]基于XGBoost的互联网金融贷前逾期识别与模型表达[D]. 陈文豪.哈尔滨工业大学 2019
[4]对P2P网贷平台信用风险的研究[D]. 杨阳.上海外国语大学 2019
[5]基于集成学习的信用卡欺诈识别方法研究[D]. 邓景熹.兰州大学 2019
[6]汽车保险欺诈索赔的关联分析[D]. 杜小雨.兰州大学 2019
[7]基于图特征的欺诈检测方法研究与应用[D]. 施朝浩.浙江大学 2019
[8]基于集成学习的信用风险预测研究[D]. 张亚琴.兰州大学 2019
[9]组合模型在网络借贷反欺诈中的应用研究[D]. 李学燕.对外经济贸易大学 2018
[10]基于离群点分析技术的医保欺诈检测模型的研究与实现[D]. 王煜.东南大学 2018
本文编号:3620599
【文章来源】:深圳大学广东省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
研究方案框架图
基于智能特征选择和集成学习的互联网金融信贷风险预测7第2章研究综述由于本文采用特征工程-模型构建的研究架构,且将特征选择作为特征工程的主要研究手段。因此本章讲对特征选择方法,包括经典的特征选择和基于智能优化算法的特征选择方法进行综述。除此之外,鉴于互联网信贷风险预测问题可归纳为分类问题,本章对互联网信贷风险预测的分类算法进行综述。2.1特征选择方法综述2.1.1经典的特征选择方法图2特征选择的基本流程在风险预测业务中,数据的维数越来越高,给现有的模式识别带来了严峻的挑战,如维度诅咒:过多的特征使得学习模型更容易过度拟合和表现不佳。为了解决维度灾难,学术界们研究了降维方法。特征选择(FeatureSelection,FS)是一种广泛应用的降维方法,其目的是通过减少不相关和冗余的特征来获得一个紧凑的数据结构[19]。它也被视为从原始特征中选择子集的过程[20]。从传统的角度定义,给定m个原始特征,从中挑选n(m>n,且n>0)个特征的特征子集。因此,遍历特征子集的复杂度为2"1。随着数据维度的增加,问题的复杂性也随之增大,搜索空间呈指数上升,寻找最优特征子集的难度也随之增大。特征选择是一个NP难题,主要体现在搜索空间大,多项式有限时间复杂度内无法求得最优解[13]。特征选择还存在特征交互现象:特征之间可以有双向、三向或复杂的多通道交互,一个与目标概念本身相关性较弱的特征,如果与一些互补特征结合使用,可以显著提高学习器性能。相反,当与一些互斥特征一起使用时,单独相关的特征可能变得多余,移除或选择这些特征可能会错过最佳特征子集[12]。学术界对于特征选择的一般过程定义为图2。其中,子集评估(特征评估)和子集生成(搜索策略)是两个关键的部分[21],即探索定义域空间以找到最佳特征子集?
基于智能特征选择和集成学习的互联网金融信贷风险预测10头脑风暴优化(BSO)等。一般地,基于智能优化算法的特征选择方法流程如图3所示,由于智能优化算法的种群交流和个体更新方式是影响特征选择性能的主要因素,因此研究者们把研究的重点转为探索更优的更新策略和探索机制。由于不同的智能优化算法方法有不同的种群交流机制和个体更新方式,因此本小节综述主流的方法并且针对优缺点进行论述,给出选择合适的智能优化算法的原因。在实际操作过程当中,常用的搜索方案的编码有两类:连续型和离散型。假设原始数据集的特征个数为m,期望所选特征子集尺寸为n。连续型编码是指可行解的维度为n,且生成的特征集合是原始特征集合的不重复子集。离散型编码的可行解维度为m,对于每个维度的特征,使用1来表示该特征被选择,使用0来表示该特征不被选择。由于智能优化算法是一种在连续空间更新的方法,则使用预定的策略来决定0/1编码,通常设定一个阈值,如果每个个体的在该维度上的向量值大于这个阈值,则该特征被编码为1,反之编码为0。连续型编码能够规定特征子集的尺寸,从而缩小的搜索空间和可行解的范围,缺点是难以通过先验知识找到最佳特征子集尺寸,可能导致无法找到全局最优解。因此,离散型编码的智能优化算法方法更加灵活,也避免了错过最优解的困境,因此成为学者们普遍采用的方法[12]。图3基于智能优化算法的特征选择方法基本流程遗传优化算法:遗传算法很可能是第一种广泛应用于特征选择问题的智能优化技术,其使用二进制字符串的自然表示形式,其中1表示相应的特征被选择,0表示该特征不被选择。为了提高性能,人们对GAs提出了许多新的改进,主要集中在搜索机制、表示和适应度函数上。一些早期的工作[38][39]通过研究种群大孝变异、交叉和繁殖
【参考文献】:
期刊论文
[1]基于强化学习的特征选择算法[J]. 朱振国,赵凯旋,刘民康. 计算机系统应用. 2018(10)
[2]数据驱动的发展式头脑风暴优化算法综述[J]. 程适,陈俊风,孙奕菲,史玉回. 郑州大学学报(工学版). 2018(03)
[3]阿里巴巴和京东个人信用评分体系差异性研究[J]. 刘奕雄. 金融经济. 2017(14)
[4]美国ZestFinance公司大数据征信实践[J]. 刘新海,丁伟. 征信. 2015(08)
[5]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
博士论文
[1]医疗保险大数据中的欺诈检测关键问题研究[D]. 高永昌.山东大学 2018
[2]基于判别分析和期望违约率方法的信用风险度量及管理研究[D]. 张玲.湖南大学 2005
硕士论文
[1]数据挖掘技术在征信数据中的应用研究[D]. 陈逸杰.南京邮电大学 2019
[2]基于非均衡数据处理和特征选择的信贷风险评估算法研究[D]. 李霜.西北大学 2019
[3]基于XGBoost的互联网金融贷前逾期识别与模型表达[D]. 陈文豪.哈尔滨工业大学 2019
[4]对P2P网贷平台信用风险的研究[D]. 杨阳.上海外国语大学 2019
[5]基于集成学习的信用卡欺诈识别方法研究[D]. 邓景熹.兰州大学 2019
[6]汽车保险欺诈索赔的关联分析[D]. 杜小雨.兰州大学 2019
[7]基于图特征的欺诈检测方法研究与应用[D]. 施朝浩.浙江大学 2019
[8]基于集成学习的信用风险预测研究[D]. 张亚琴.兰州大学 2019
[9]组合模型在网络借贷反欺诈中的应用研究[D]. 李学燕.对外经济贸易大学 2018
[10]基于离群点分析技术的医保欺诈检测模型的研究与实现[D]. 王煜.东南大学 2018
本文编号:3620599
本文链接:https://www.wllwen.com/guanlilunwen/bankxd/3620599.html