基于试验设计的不平衡数据欠抽样算法研究
发布时间:2021-05-21 08:14
随着计算机和网络技术的极速发展,数据信息的重要性愈发明显,源于二分类任务里数据偏态问题的不平衡数据,渗透到了生活的多个领域之中。近年来,对于不平衡数据的研究既是一个热点也是一个难点问题。通过不平衡数据能反映出更具有价值的信息,因此研究提高不平衡数据分类中的少数类样本的准确率,挖掘出不平衡数据背后的价值具有重大的意义。现阶段对不平衡数据集的处理主要集中在两个层面上:一是在算法层面上,通过编写新算法或者改进旧算法的方法,令不平衡数据的分类有效;另一个是在数据层面上,在具体分析前,对数据进行预处理,对数目多的样本做欠抽样处理或对数目少的样本进行过抽样,令其相对平衡。主要在数据层面对不平衡数据集进行研究。首先,将试验设计聚类分析相结合,利用正交试验设计选取部分具有代表性方案代替全面试验,通过方差分析法对结果进行分析,剔除不平衡数据中占多数数据繁冗部分,提取最具代表性理想组合样本作为聚类中心。其次,通过研究分析选取处理速度快、占用内存小且适合大样本分析的K-Means聚类分析的方法对不平衡数据进行欠抽样,利用Logistic回归模型对欠抽样结果进行回代检测。接着,通过数据集进行了实证分析,结果表...
【文章来源】:华北理工大学河北省
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
引言
第1章 绪论
1.1 选题背景
1.2 研究现状
1.2.1 不平衡数据算法层面研究
1.2.2 不平衡数据数据层面研究
1.2.3 处理不平衡数据集分类问题的研究难点
1.3 研究方案与内容
1.3.1 研究内容
1.3.2 研究框架图
第2章 基于试验设计的聚类中心选取
2.1 试验设计方法简介
2.2 正交设计理论
2.2.1 等水平正交表
2.2.2 混合水平正交表
2.3 正交试验设计的优点
2.4 正交试验设计的步骤
2.5 正交试验设计的结果分析
2.5.1 极差(直观)分析法
2.5.2 方差分析法
2.6 正交分析得到聚类中心
2.7 本章小结
第3章 聚类分析方法选取
3.1 聚类分析
3.1.1 样品间距离
3.1.2 类与类之间的距离
3.2 K-Means聚类法
3.3 试验设计与聚类的结合
3.4 章节小结
第4章 Logistic回归模型检验
4.1 回归分析
4.2 Logistic回归模型
4.2.1 二分类Logistic回归模型
4.2.2 多类别Logistic回归模型
4.2.3 Logistic回归模型的参数估计
4.3 本章小结
第5章 基于试验设计的不平衡数据欠抽样算法及实证研究
5.1 基于试验设计的不平衡数据欠抽样算法
5.2 算法的实证研究
5.2.1 类比为5:1的不平衡数据集
5.2.2 类比为25:1的不平衡数据集
5.3 不同类别比的不平衡结果对比
5.4 章节小结
结论
参考文献
致谢
导师简介
作者简介
学位论文数据集
【参考文献】:
期刊论文
[1]面向非平衡数据集分类的改进模糊支持向量机[J]. 魏鑫,张雪英,李凤莲,胡风云,贾文辉,王超. 计算机工程与设计. 2019(11)
[2]面向不平衡数据集的一种改进的加权超限学习机分类算法[J]. 梅颖,卢诚波. 数学的实践与认识. 2019(19)
[3]基于局部密度改进的SVM不平衡数据集分类算法[J]. 刘悦婷,张燕,孙伟刚. 宁夏大学学报(自然科学版). 2019(03)
[4]面向非平衡多分类问题的二次合成QSMOTE方法[J]. 韩明鸣,郭虎升,王文剑. 南京大学学报(自然科学). 2019(01)
[5]不平衡数据分类方法综述[J]. 李艳霞,柴毅,胡友强,尹宏鹏. 控制与决策. 2019(04)
[6]基于CPD-SMOTE的类不平衡数据分类算法研究[J]. 彭如香,杨涛,孔华锋,姜国庆,凡友荣. 计算机应用与软件. 2018(12)
[7]不平衡数据分类研究综述[J]. 赵楠,张小芳,张利军. 计算机科学. 2018(S1)
[8]基于不平衡数据样本特性的新型过采样SVM分类算法[J]. 黄海松,魏建安,康佩栋. 控制与决策. 2018(09)
[9]一种去冗余抽样的非平衡数据分类方法[J]. 史颖,亓慧. 山西大学学报(自然科学版). 2017(02)
[10]面向不平衡数据分类的复合SVM算法研究[J]. 刘东启,陈志坚,徐银,李飞腾. 计算机应用研究. 2018(04)
硕士论文
[1]基于支持向量机的不平衡数据分类算法研究[D]. 刘东启.浙江大学 2017
[2]基于过欠重抽样的类别非平衡SVM财务困境预测研究[D]. 吴凤娟.浙江师范大学 2016
[3]SMOTE不平衡数据过采样算法的改进与应用[D]. 陈斌.广西大学 2015
[4]基于非平衡视角的企业财务困境智能预警研究[D]. 商志明.浙江师范大学 2013
[5]基于聚类的不平衡数据分类研究[D]. 陈兴稣.东北师范大学 2013
[6]一种改进的非平衡数据集支持向量机分类算法[D]. 姚冰.吉林大学 2010
本文编号:3199374
【文章来源】:华北理工大学河北省
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
引言
第1章 绪论
1.1 选题背景
1.2 研究现状
1.2.1 不平衡数据算法层面研究
1.2.2 不平衡数据数据层面研究
1.2.3 处理不平衡数据集分类问题的研究难点
1.3 研究方案与内容
1.3.1 研究内容
1.3.2 研究框架图
第2章 基于试验设计的聚类中心选取
2.1 试验设计方法简介
2.2 正交设计理论
2.2.1 等水平正交表
2.2.2 混合水平正交表
2.3 正交试验设计的优点
2.4 正交试验设计的步骤
2.5 正交试验设计的结果分析
2.5.1 极差(直观)分析法
2.5.2 方差分析法
2.6 正交分析得到聚类中心
2.7 本章小结
第3章 聚类分析方法选取
3.1 聚类分析
3.1.1 样品间距离
3.1.2 类与类之间的距离
3.2 K-Means聚类法
3.3 试验设计与聚类的结合
3.4 章节小结
第4章 Logistic回归模型检验
4.1 回归分析
4.2 Logistic回归模型
4.2.1 二分类Logistic回归模型
4.2.2 多类别Logistic回归模型
4.2.3 Logistic回归模型的参数估计
4.3 本章小结
第5章 基于试验设计的不平衡数据欠抽样算法及实证研究
5.1 基于试验设计的不平衡数据欠抽样算法
5.2 算法的实证研究
5.2.1 类比为5:1的不平衡数据集
5.2.2 类比为25:1的不平衡数据集
5.3 不同类别比的不平衡结果对比
5.4 章节小结
结论
参考文献
致谢
导师简介
作者简介
学位论文数据集
【参考文献】:
期刊论文
[1]面向非平衡数据集分类的改进模糊支持向量机[J]. 魏鑫,张雪英,李凤莲,胡风云,贾文辉,王超. 计算机工程与设计. 2019(11)
[2]面向不平衡数据集的一种改进的加权超限学习机分类算法[J]. 梅颖,卢诚波. 数学的实践与认识. 2019(19)
[3]基于局部密度改进的SVM不平衡数据集分类算法[J]. 刘悦婷,张燕,孙伟刚. 宁夏大学学报(自然科学版). 2019(03)
[4]面向非平衡多分类问题的二次合成QSMOTE方法[J]. 韩明鸣,郭虎升,王文剑. 南京大学学报(自然科学). 2019(01)
[5]不平衡数据分类方法综述[J]. 李艳霞,柴毅,胡友强,尹宏鹏. 控制与决策. 2019(04)
[6]基于CPD-SMOTE的类不平衡数据分类算法研究[J]. 彭如香,杨涛,孔华锋,姜国庆,凡友荣. 计算机应用与软件. 2018(12)
[7]不平衡数据分类研究综述[J]. 赵楠,张小芳,张利军. 计算机科学. 2018(S1)
[8]基于不平衡数据样本特性的新型过采样SVM分类算法[J]. 黄海松,魏建安,康佩栋. 控制与决策. 2018(09)
[9]一种去冗余抽样的非平衡数据分类方法[J]. 史颖,亓慧. 山西大学学报(自然科学版). 2017(02)
[10]面向不平衡数据分类的复合SVM算法研究[J]. 刘东启,陈志坚,徐银,李飞腾. 计算机应用研究. 2018(04)
硕士论文
[1]基于支持向量机的不平衡数据分类算法研究[D]. 刘东启.浙江大学 2017
[2]基于过欠重抽样的类别非平衡SVM财务困境预测研究[D]. 吴凤娟.浙江师范大学 2016
[3]SMOTE不平衡数据过采样算法的改进与应用[D]. 陈斌.广西大学 2015
[4]基于非平衡视角的企业财务困境智能预警研究[D]. 商志明.浙江师范大学 2013
[5]基于聚类的不平衡数据分类研究[D]. 陈兴稣.东北师范大学 2013
[6]一种改进的非平衡数据集支持向量机分类算法[D]. 姚冰.吉林大学 2010
本文编号:3199374
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3199374.html