类别不平衡数据的个人信用风险评估算法研究
发布时间:2023-03-30 01:27
互联网技术催生了一大批新兴产业,促使互联网金融业蓬勃发展,不论是京东白条、蚂蚁花呗还是P2P网贷,越来越多的信用消费产品走入人们的生活。众多互联网信贷产品在为用户提供便捷可靠的服务之前,需要先依据用户的基本信息、历史交易数据来构建个人信用风险评估模型以预测可能发生的违约风险。使用机器学习算法构建个人信用风险评估模型是解决这一实际问题的常用方法。信贷数据通常是类别不平衡的,传统的机器学习算法在面向不平衡数据的分类问题时,通常易将少数类样本误分为多数类,导致预测结果不理想。然而在现实问题中,对少数类样本进行准确地识别往往是更为重要的。面对不平衡数据,如何有效的对其进行分类有着重要的研究价值。与此同时,信贷数据还具有维度高、冗余特征较多的特点,如何对数据进行有效的特征选择,使得选出的特征子集在包含最多数据信息量、最少噪声特征的同时,可以最大程度提升模型泛化能力、节省模型训练时间。基于此背景,本文以提高不平衡的信贷数据中少数类样本的识别率为研究目标,提出了一种改进的数据过采样方法和一种改进的特征选择方法,用于处理高维不平衡的信贷数据,通过改进的深度森林算法建立个人信用风险评估模型,具体研究内容...
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 数据层面方法
1.2.2 算法层面方法
1.3 研究内容及主要工作
1.4 章节安排
第二章 相关知识与理论
2.1 不平衡数据分析
2.1.1 数据重采样算法
2.1.2 面向分类型数据的过采样方法
2.2 特征选择
2.2.1 mRMR算法
2.2.2 Relief算法
2.2.3 FAST算法
2.3 常用的集成分类算法
2.3.1 决策树与随机森林
2.3.2 XGBoost
2.3.3 CatBoost
2.4 模型的评估与校验
2.5 本章小结
第三章 不平衡数据预处理
3.1 数据清洗
3.2 数据重采样
3.2.1 面向分类型数据的过采样方法
3.2.2 异构值差度量HVDM
3.2.3 改进的ADASYN数据重采样方法
3.3 特征选择
3.3.1 ROC与AUC评价标准
3.3.2 Kendell相关等级
3.3.3 一种新的特征选择方法
3.4 实验
3.4.1 实验环境与数据
3.4.2 评价指标
3.4.3 实验与分析
3.5 本章小结
第四章 基于集成学习的个人信用风险预测模型
4.1 深度森林
4.2 基于改进深度森林的个人信用风险预测模型
4.2.1 模型参数设置
4.2.2 实验及结果分析
4.3 基于集成学习算法的个人信用风险预测模型
4.3.1 模型参数设置
4.3.2 实验及结果分析
4.4 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
参考文献
致谢
本文编号:3774898
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 数据层面方法
1.2.2 算法层面方法
1.3 研究内容及主要工作
1.4 章节安排
第二章 相关知识与理论
2.1 不平衡数据分析
2.1.1 数据重采样算法
2.1.2 面向分类型数据的过采样方法
2.2 特征选择
2.2.1 mRMR算法
2.2.2 Relief算法
2.2.3 FAST算法
2.3 常用的集成分类算法
2.3.1 决策树与随机森林
2.3.2 XGBoost
2.3.3 CatBoost
2.4 模型的评估与校验
2.5 本章小结
第三章 不平衡数据预处理
3.1 数据清洗
3.2 数据重采样
3.2.1 面向分类型数据的过采样方法
3.2.2 异构值差度量HVDM
3.2.3 改进的ADASYN数据重采样方法
3.3 特征选择
3.3.1 ROC与AUC评价标准
3.3.2 Kendell相关等级
3.3.3 一种新的特征选择方法
3.4 实验
3.4.1 实验环境与数据
3.4.2 评价指标
3.4.3 实验与分析
3.5 本章小结
第四章 基于集成学习的个人信用风险预测模型
4.1 深度森林
4.2 基于改进深度森林的个人信用风险预测模型
4.2.1 模型参数设置
4.2.2 实验及结果分析
4.3 基于集成学习算法的个人信用风险预测模型
4.3.1 模型参数设置
4.3.2 实验及结果分析
4.4 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
参考文献
致谢
本文编号:3774898
本文链接:https://www.wllwen.com/guanlilunwen/huobilw/3774898.html