基于三支决策的不平衡数据采样方法研究
发布时间:2021-02-21 03:57
不平衡数据是指在数据集中样本数量在类间分布不平衡的一类数据,传统的分类算法在对不平衡数据进行分类时,分类结果更多的倾向于多数类,从而使得对少数类的识别率不尽人意。过采样是解决不平衡数据分类问题的一条有效途径。现有的过采样算法虽然在一定程度上能够提高少数类的识别率,但针对性不强,容易导致新合成的少数类样本影响多数类样本的泛化空间,使得多数类样本的识别率下降,而且容易合成冗余数据。近些年关于三支决策理论的应用研究获得了一定的进展,若将三支决策理论应用到不平衡数据处理方面,有可能是一条解决不平衡数据分类问题的有效途径。受其启发,结合三支决策理论,本文开展了基于三支决策的不平衡数据采样方法研究,主要工作在于:(1)结合邻域粗糙集模型和三支决策模型,提出了基于三支决策的不平衡数据过采样方法(TWD-IDOS)。首先,定义了邻域三支决策模型的相关概念;其次,利用邻域三支决策模型将训练集中的样本划分成正域样本、边界域样本和负域样本;再次,对边界域和负域中的少数类样本分别进行过采样处理;最后,在多个UCI数据集上进行对比实验,并与其他过采样方法、欠采样方法和集成方法进行了比较。实验结果表明,在C4.5...
【文章来源】:重庆邮电大学重庆市
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景和意义
1.2 不平衡数据分类问题的研究现状
1.2.1 数据层面
1.2.2 算法层面
1.3 论文主要工作
1.4 本文的组织结构
第2章 粗糙集与三支决策
2.1 粗糙集理论介绍
2.2 三支决策理论研究现状
2.3 本章小结
第3章 基于三支决策的不平衡数据过采样算法
3.1 邻域粗糙集模型
3.2 邻域三支决策模型
3.3 基于三支决策的不平衡数据过采样算法
3.3.1 确定样本的邻域半径
3.3.2 对不同区域的样本过采样
3.3.3 算法描述
3.3.4 算法的复杂度分析
3.4 实验评价
3.4.1 实验数据
3.4.2 评价指标
3.5 实验方法
3.5.1 确定邻域半径
3.5.2 实验方法及参数设定
3.5.3 实验结果及分析
3.6 本章小结
第四章 基于三支决策的不平衡数据并行过采样算法
4.1 MapReduce与Spark
4.1.1 MapReduce
4.1.2 Spark
4.1.3 MapReduce与Spark
4.2 基于三支决策的不平衡数据过采样算法的并行化
4.2.1 训练集划分阶段的并行化
4.2.2 边界域采样阶段的并行化
4.2.3 负域采样阶段的并行化
4.2.4 分类学习
4.3 算法的实验结果及分析
4.3.1 实验数据及参数说明
4.3.2 并行算法的有效性
4.3.3 并行算法的高效性
4.4 参数敏感性分析
4.5 本章小结
第5章 总结及未来工作
5.1 总结
5.2 未来工作
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果
本文编号:3043808
【文章来源】:重庆邮电大学重庆市
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景和意义
1.2 不平衡数据分类问题的研究现状
1.2.1 数据层面
1.2.2 算法层面
1.3 论文主要工作
1.4 本文的组织结构
第2章 粗糙集与三支决策
2.1 粗糙集理论介绍
2.2 三支决策理论研究现状
2.3 本章小结
第3章 基于三支决策的不平衡数据过采样算法
3.1 邻域粗糙集模型
3.2 邻域三支决策模型
3.3 基于三支决策的不平衡数据过采样算法
3.3.1 确定样本的邻域半径
3.3.2 对不同区域的样本过采样
3.3.3 算法描述
3.3.4 算法的复杂度分析
3.4 实验评价
3.4.1 实验数据
3.4.2 评价指标
3.5 实验方法
3.5.1 确定邻域半径
3.5.2 实验方法及参数设定
3.5.3 实验结果及分析
3.6 本章小结
第四章 基于三支决策的不平衡数据并行过采样算法
4.1 MapReduce与Spark
4.1.1 MapReduce
4.1.2 Spark
4.1.3 MapReduce与Spark
4.2 基于三支决策的不平衡数据过采样算法的并行化
4.2.1 训练集划分阶段的并行化
4.2.2 边界域采样阶段的并行化
4.2.3 负域采样阶段的并行化
4.2.4 分类学习
4.3 算法的实验结果及分析
4.3.1 实验数据及参数说明
4.3.2 并行算法的有效性
4.3.3 并行算法的高效性
4.4 参数敏感性分析
4.5 本章小结
第5章 总结及未来工作
5.1 总结
5.2 未来工作
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果
本文编号:3043808
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3043808.html