基于集成学习Stacking融合模型下个人信用风险的研究

发布时间：2023-12-28 19:42

　　信用风险管理的科学化是现代风险管理重要特征,其核心问题之一就是风险特征识别。信用风险管理的困难之处就在于信用风险管理难于量化。传统的信用风险管理手段多以定性分析为主,难以适应市场发展的要求。中国人民银行的征信系统借助于先进的技术对个人的信用进行了评估,但是由于其在数据挖掘等技术层面做的不够完善,使得该系统并不是很成熟。本文通过实证对比验证,对现有的机器学习算法进行了分析,并运用集成学习对个人信用风险进行了研究。集成学习指的是将若干基学习器进行融合构成一个性能更佳的强学习器,这样的好处是即使个别的弱学习器得到的结果有偏差,其他的弱学习器也可以将偏差补回来。本文模型的构建思路:首先,对信贷数据进行预处理,包括构建异常值及明显错误处理函数、去共线性函数、缺失值处理函数以及重采样函数。通过对比相关性分析结合相关系数和最大信息系数以及各变量的IV值,经过一系列的数据清洗后确定了7个对标签值有影响并且相关性不大的变量。然后,将数据预处理后的信贷数据分别用随机森林(Random Forest)、分类型支持向量机(SVC)、XGBoost这三个基学习器进行建模,并得到每个模型的性能评估值,由于这三个基...

【文章页数】：51 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 本文研究内容与结构安排
    1.4 本文创新点
        1.4.1 特征变量的选取
        1.4.2 基模型的选取
2 数据挖掘算法原理
    2.1 随机森林算法
        2.1.1 决策树
        2.1.2 随机森林
    2.2 支持向量机算法
    2.3 XGBoost算法
    2.4 遗传算法
        2.4.1 遗传算法的原理
        2.4.2 遗传算法的优缺点
    2.5 逻辑回归算法
        2.5.1 逻辑回归算法原理
        2.5.2 逻辑回归算法优缺点
    2.6 Stacking集成学习算法
        2.6.1 Stacking算法原理
        2.6.2 Stacking算法优缺点
3 数据预处理及描述性分析
    3.1 数据变量可视化
        3.1.1 数据变量含义
        3.1.2 查看数据分布情况
    3.2 数据预处理
    3.3 探索性分析
        3.3.1 数据重采样
        3.3.2 客户类别整体情况
        3.3.3 相关性分析
        3.3.4 WOE分箱技术
        3.3.5 利用IV值筛选变量
    3.4 模型性能评估方式及指标
        3.4.1 混淆矩阵
        3.4.2 ROC曲线和AUC值
4 实证分析
    4.1 Random Forest构建模型进行实证分析
    4.2 SVC构建模型进行实证分析
    4.3 XGBoost构建模型进行实证分析
    4.4 GA-SVC构建模型进行实证分析
    4.5 GA-XGBoost构建模型进行实证分析
    4.6 Stacking集成学习构建模型进行实证分析
5 研究结论与总结
    5.1 全文总结
    5.2 不足与展望
参考文献
攻读学位期间的研究成果
致谢

本文编号：3876064

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/jingjifazhanlunwen/3876064.html

上一篇：轨道交通对周边住宅价格的影响研究——以郑州地铁2号线为例
下一篇：中国省域农业生态资本运营水平评价

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|