不平衡分类的数据采样问题实证研究
发布时间:2021-12-22 10:18
获取最为精确的分类效果从来都是机器学习方法所追求的研究目的,大多数的机器学习分类模型,一般都是根据平衡数据所设计的,模型只追求整体的分类性能。在做分类问题的数据挖掘领域,不平衡数据普遍存在,直接训练不平衡的数据集会导致对数据集少数类的预测准确性降低,甚至当数据极度不平衡时,模型会把大部分的少数类都划分为多数类,而不平衡数据中数据量较少的那一类往往是需要重点关注的对象,对少数类的误分会造成不可预估的后果。针对数据的不平衡情况,本文叙述了常用的数据采样方法,细分了欠采样、过采样方法以及混合采样方法的优劣,从数据层面进行分析。本文采用正负样本的比例接近1:11的P2P借贷数据,利用机器学习分类器进行建模。首先对贷款基本情况、用户画像和业务等方面进行可视化分析,发现违约相关性较高的特征属性,给予投资人有效性的建议,谨慎投资,降低违约风险带给客户的损失;再对数据进行数据预处理,删掉缺失比例较大、对整体模型无实际意义的特征,对特征进行有效地填充,删除缺失比例较小的特征相关的样本;通过特征的相关性分析,选择与目标变量相关性较高的特征,提高模型性能上限。选择分类模型,对比不进行处理和进行数据采样方法之...
【文章来源】: 华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:45 页
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究综述
1.3 研究方法
第二章 不平衡采样方法及评价指标
2.1 不平衡数据之数据采样
2.1.1 欠采样
2.1.2 过采样
2.1.3 混合采样
2.2 不平衡数据之评价指标
2.2.1 混淆矩阵
2.2.2 ROC曲线和ROC-AUC
第三章 分类学习理论
3.1 逻辑回归
3.2 随机森林
第四章 实证分析
4.1 数据来源
4.2 数据探索(EDA)
4.2.1 贷款质量
4.2.2 用户画像
4.2.3 业务分析
4.3 数据预处理
4.3.1 缺失值处理
4.3.2 异常值处理
4.4 特征工程
4.4.1 特征编码
4.4.2 特征选择
4.5 模型训练及对比分析
4.5.1 数据采样对比分析
4.5.2 模型对比分析
4.6 结论
第五章 结论与展望
5.1 研究总结
5.2 展望
参考文献
致谢
【参考文献】:
期刊论文
[1]P2P网络借贷平台信用风险研究 [J]. 丁洁. 价值工程. 2019(31)
[2]从P2P网络借贷平台异常财务数据识别风险——以T公司为例 [J]. 欧阳鋆. 中国商论. 2019(17)
[3]基于混合采样策略的改进随机森林不平衡数据分类算法 [J]. 郑建华,刘双印,贺超波,符志强. 重庆理工大学学报(自然科学). 2019(07)
[4]改进SMOTE的不平衡数据集成分类算法 [J]. 王忠震,黄勃,方志军,高永彬,张娟. 计算机应用. 2019(09)
[5]一种改进型的不平衡数据欠采样算法 [J]. 魏力,张育平. 小型微型计算机系统. 2019(05)
[6]基于随机森林分类模型的P2P网络借贷标的信用风险因子研究 [J]. 马春文,赵慧,李琪. 吉林大学社会科学学报. 2019(03)
[7]基于逻辑回归的商业银行客户信用评级研究 [J]. 郝婷婷,俞俊杰,陈燕. 科技资讯. 2019(03)
[8]面向不平衡数据集的一种基于聚类的欠采样方法 [J]. 李春雪,谢林森,卢诚波. 数学的实践与认识. 2019(01)
[9]一种改进过采样的不平衡数据集成分类算法 [J]. 张菲菲,王黎明,柴玉梅. 小型微型计算机系统. 2018(10)
[10]基于混合采样的非平衡数据分类算法 [J]. 吴艺凡,梁吉业,王俊红. 计算机科学与探索. 2019(02)
硕士论文
[1]基于随机森林的个人信用评价指标分析[D]. 王梦芹.安徽大学. 2018
本文编号:3546233
【文章来源】: 华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:45 页
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究综述
1.3 研究方法
第二章 不平衡采样方法及评价指标
2.1 不平衡数据之数据采样
2.1.1 欠采样
2.1.2 过采样
2.1.3 混合采样
2.2 不平衡数据之评价指标
2.2.1 混淆矩阵
2.2.2 ROC曲线和ROC-AUC
第三章 分类学习理论
3.1 逻辑回归
3.2 随机森林
第四章 实证分析
4.1 数据来源
4.2 数据探索(EDA)
4.2.1 贷款质量
4.2.2 用户画像
4.2.3 业务分析
4.3 数据预处理
4.3.1 缺失值处理
4.3.2 异常值处理
4.4 特征工程
4.4.1 特征编码
4.4.2 特征选择
4.5 模型训练及对比分析
4.5.1 数据采样对比分析
4.5.2 模型对比分析
4.6 结论
第五章 结论与展望
5.1 研究总结
5.2 展望
参考文献
致谢
【参考文献】:
期刊论文
[1]P2P网络借贷平台信用风险研究 [J]. 丁洁. 价值工程. 2019(31)
[2]从P2P网络借贷平台异常财务数据识别风险——以T公司为例 [J]. 欧阳鋆. 中国商论. 2019(17)
[3]基于混合采样策略的改进随机森林不平衡数据分类算法 [J]. 郑建华,刘双印,贺超波,符志强. 重庆理工大学学报(自然科学). 2019(07)
[4]改进SMOTE的不平衡数据集成分类算法 [J]. 王忠震,黄勃,方志军,高永彬,张娟. 计算机应用. 2019(09)
[5]一种改进型的不平衡数据欠采样算法 [J]. 魏力,张育平. 小型微型计算机系统. 2019(05)
[6]基于随机森林分类模型的P2P网络借贷标的信用风险因子研究 [J]. 马春文,赵慧,李琪. 吉林大学社会科学学报. 2019(03)
[7]基于逻辑回归的商业银行客户信用评级研究 [J]. 郝婷婷,俞俊杰,陈燕. 科技资讯. 2019(03)
[8]面向不平衡数据集的一种基于聚类的欠采样方法 [J]. 李春雪,谢林森,卢诚波. 数学的实践与认识. 2019(01)
[9]一种改进过采样的不平衡数据集成分类算法 [J]. 张菲菲,王黎明,柴玉梅. 小型微型计算机系统. 2018(10)
[10]基于混合采样的非平衡数据分类算法 [J]. 吴艺凡,梁吉业,王俊红. 计算机科学与探索. 2019(02)
硕士论文
[1]基于随机森林的个人信用评价指标分析[D]. 王梦芹.安徽大学. 2018
本文编号:3546233
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3546233.html