当前位置:主页 > 科技论文 > 软件论文 >

基于重采样的代价敏感学习在网络贷款用户分类中的应用

发布时间:2022-02-19 16:50
  网络贷款数据集具有申请量大而获批少的特征,是典型的不平衡数据集。利用机器学习方法,预先筛选出可能给予贷款的用户,可大大减少后续人工审核的工作量,加快贷款用户的响应速度,具有较好的应用价值。对不平衡数据集的研究集中在数据层面和算法层面,本文在数据层面对随机平衡采样算法进行改进,在算法层面提出改进的代价敏感决策树算法,最后对算法层面和数据层面的改进算法进行融合,提出以最小误分类总代价为目标的新算法,并将提出的方法用于贷款用户分类研究中,论文的主要工作和贡献如下:1.不平衡数据集的重采样算法:本文在随机平衡采样算法的基础上,提出改进的随机平衡采样算法,该算法先根据样本点的位置,将所有样本点分为三类:安全点、边界点和噪声点,之后移除噪声点和边界点中的多数类样本,这样不同类样本间的分类边界更清晰,并针对不同类型的样本采用不同的采样方式;再同时对多数类样本进行欠采样、少数类样本进行过采样,使样本集中各类别样本数目基本一致。在网络贷款分类中,与随机平衡采样算法相比,该算法提高了少数类样本的分类准确率。2.不平衡数据集的代价敏感学习算法:本文在代价敏感决策树敏感函数的计算中加入类分布,以减弱正负类样本... 

【文章来源】:华南理工大学广东省211工程院校985工程院校教育部直属院校

【文章页数】:74 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 问题的提出
        1.1.1 选题的研究背景
        1.1.2 选题的目的及意义
    1.2 国内外研究综述
        1.2.1 网络贷款国外研究综述
        1.2.2 类别不平衡问题国内外研究综述
    1.3 本文的主要研究内容
    1.4 本文的结构安排
第二章 分类算法
    2.1 常用的分类算法
        2.1.1 决策树
        2.1.2 逻辑回归
        2.1.3 支持向量机
    2.2 分类器性能评估
        2.2.1 分类器常用的数值评价指标
        2.2.2 分类器常用的可视化评价指标
    2.3 类别不平衡分类问题
        2.3.1 类别不平衡分类问题的难点
        2.3.2 类别不平衡分类问题的常用解决办法
    2.4 代价敏感分类问题
        2.4.1 代价敏感分类问题的定义
        2.4.2 代价敏感问题的常用解决办法
        2.4.3 代价敏感学习的评价指标
        2.4.4 典型的代价敏感学习算法
    2.5 本章小结
第三章 样本重采样算法
    3.1 改进的随机平衡采样算法
        3.1.1 随机平衡采样算法
        3.1.2 改进的随机平衡采样算法
        3.1.3 改进的随机平衡采样Bagging集成算法
    3.2 基于IRBSBagging算法的仿真实验
        3.2.1 以决策树作为基分类器
        3.2.2 以LR作为基分类器
        3.2.3 以SVM作为基分类器
        3.2.4 实验结果分析
    3.3 基于IRBSBagging算法的贷款用户分类应用
        3.3.1 数据预处理
        3.3.2 实验结果及分析
    3.4 本章小结
第四章 代价敏感学习
    4.1 改进的代价敏感决策树算法
        4.1.1 代价敏感决策树算法
        4.1.2 加入类分布的代价敏感决策树算法
        4.1.3 改进的代价敏感决策树的集成算法
    4.2 基于IID3cs算法的仿真实验
        4.2.1 Sick数据集实验
        4.2.2 Hepatitis数据集实验
        4.2.3 Ionosphere数据集实验
        4.2.4 BankMarketing数据集实验
        4.2.5 实验结果分析
    4.3 基于IID3cs算法在网络贷款用户分类中的应用
        4.3.1 实验设置
        4.3.2 实验结果及分析
    4.4 本章小结
第五章 基于重采样的代价敏感学习
    5.1 基于重采样的代价敏感学习的仿真实验
        5.1.1 Sick数据集
        5.1.2 Hepatitis数据集
        5.1.3 Ionosphere数据集
        5.1.4 BankMarketing数据集
    5.2 基于重采样的代价敏感学习在网络贷款用户分类中的应用
    5.3 本章小结
总结与展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件


【参考文献】:
期刊论文
[1]不平衡数据的随机平衡采样bagging算法分类研究[J]. 季梦遥,袁磊.  贵州大学学报(自然科学版). 2017(06)
[2]基于不平衡样本的互联网个人信用评估研究[J]. 李毅,姜天英,刘亚茹.  统计与信息论坛. 2017(02)
[3]代价敏感学习中的损失函数设计[J]. 李秋洁,赵亚琴,顾洲.  控制理论与应用. 2015(05)
[4]不平衡数据的集成分类算法综述[J]. 李勇,刘战东,张海军.  计算机应用研究. 2014(05)
[5]不平衡多分类问题的连续AdaBoost算法研究[J]. 付忠良.  计算机研究与发展. 2011(12)
[6]基于代价敏感决策树的客户价值细分(英文)[J]. 邹鹏,莫佳卉,江亦华,叶强.  管理科学. 2011(02)
[7]不平衡类数据挖掘研究综述[J]. 翟云,杨炳儒,曲武.  计算机科学. 2010(10)
[8]多种个人信用评分模型在中国应用的比较研究[J]. 石庆焱,靳云汇.  统计研究. 2004(06)
[9]浅析房地产消费信贷现状[J]. 仲莉红.  建筑经济. 2003(10)

硕士论文
[1]基于网络信贷数据的分类器构造[D]. 尹超.中国科学技术大学 2016



本文编号:3633264

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3633264.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7cfec***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com