综合过采样和欠采样的不平衡数据集的学习研究
本文关键词:综合过采样和欠采样的不平衡数据集的学习研究,,由笔耕文化传播整理发布。
【摘要】:不平衡数据学习已经逐渐成为当前机器学习领域研究热点之一。在解决不平衡数据集的学习分类的问题时,需要尽可能大的提高分类器对少数类的预测精度,而且也要保证分类器的分类精度受到特别大的影响。本课题在对不平衡数据的特殊性的研究基础上,结合实际数据集中数据分布特性和数据各个属性的在分类过程中的作用,对目前常用于不平衡数据的重采样方法进行改进,有效的解决存在于传统方法中的不足,得到了新的重采样方法。为了确保对少数类的识别性能,对集成分类器进行相应的改进,最终得到一个针对不平衡数据集的完整的分类学习系统。首先,本课题提出了一种针对不平衡数据集的基于数据密度分布的欠采样方法。该算法引入数据密度的概念,并以此将多数类数据划分为高密度数据簇和低密度数据簇,针对不同密度的数据簇,执行不同的重采样策略,以达到改善数据平衡度的目的。实验通过选取6组UCI数据集进行验证,选取C4.5、SVM作为分类器,将该方法与随机欠采样、KNN-Near Miss等方法进行比较,实验结果表明,该方法对不平衡数据分类有较好的效果,能有效提升分类器对少数类的识别性能。其次,该方法通过研究不同属性对少数类样本识别的不同作用,将属性划分为显性属性、隐性属性。显性属性偏向于少数类,为少数类样本的识别提供可靠、充分的信息,隐形属性偏向于多数类,对少数类的识别形成干扰。因此,针对不同属性,采用不同复制策略,最终实现对合成少数类样本的样本质量提升。通过选取6组UCI数据集,与SMOTE、随机过采样等方法进行比较,实验结果表明,经过该方法重采样的不平衡数据集,其数据分类学习效果、少数类的识别率得到了提升。最后,为了进一步提高对不平衡数据集中少数类的识别率,对Databoost-IM方法进行深入研究,针对其过分强调难分样本的缺点,提出一种新的集成分类方法,该方法每次迭代时确定出难分样本中的种子样本,然后利用这些种子样本来生成合成数据,并添加到训练样本中进一步训练分类器,最终得到新的训练集去训练新的分类器。
【关键词】:机器学习 不平衡数据 重采样 集成学习
【学位授予单位】:东北电力大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181
【目录】:
- 摘要6-7
- Abstract7-11
- 第1章 绪论11-16
- 1.1 研究背景和研究意义11-12
- 1.2 国内外研究动态12-14
- 1.3 本文的研究内容14-15
- 1.4 本文的章节安排15-16
- 第2章 不平衡数据集研究16-25
- 2.1 不平衡数据集16
- 2.2 不平衡数据集的分类学习的难点16-18
- 2.3 不平衡数据学习的主要方法18-22
- 2.3.1 基于数据层面的方法18-20
- 2.3.2 基于算法层面的方法20-22
- 2.4 不平衡数据的评价准则22-24
- 2.4.1 F-measure准则23
- 2.4.2 G-mean准则23-24
- 2.4.3 ROC曲线以及AUC24
- 2.5 本章小结24-25
- 第3章 基于数据密度分布的欠采样方法25-31
- 3.1 基于数据密度分布的欠采样方法25-27
- 3.1.1 US-DD算法思想25-26
- 3.1.2 数据密度26
- 3.1.3 US-DD算法描述26-27
- 3.2 实验过程与结果分析27-30
- 3.2.1 实验数据集27-28
- 3.2.2 实验结果与分析28-30
- 3.3 本章小结30-31
- 第4章 基于属性偏向的过采样方法31-39
- 4.1 SMOTE方法31-32
- 4.2 SMOTE方法的不足之处32-33
- 4.3 基于属性偏向的过采样方法33-38
- 4.3.1 GE-SMOTE算法思想33
- 4.3.2 GE-SMOTE算法描述33-36
- 4.3.3 实验结果与分析36-38
- 4.4 本章小结38-39
- 第5章 综合重采样的集成学习方法研究39-44
- 5.1 DataBoost-IM算法的不足39
- 5.2 综合重采样的集成算法DataBoost-DG39-42
- 5.2.1 US-DD在DataBoost-DG中的作用39-40
- 5.2.2 GE-SMOTE在DataBoost-DG中的作用40-41
- 5.2.3 DataBoost-DG算法步骤41-42
- 5.3 实验与结果分析42-43
- 5.4 本章小结43-44
- 结论44-46
- 参考文献46-49
- 攻读硕士学位期间发表的学术论文49-50
- 致谢50
【参考文献】
中国期刊全文数据库 前10条
1 李勇;;结合欠抽样与集成的软件缺陷预测[J];计算机应用;2014年08期
2 李勇;刘战东;张海军;;不平衡数据的集成分类算法综述[J];计算机应用研究;2014年05期
3 孟光胜;赵志宇;;基于两层主动学习策略的SVM分类方法[J];河南师范大学学报(自然科学版);2014年02期
4 谢科;;融合协同训练和两层主动学习策略的SVM分类方法[J];湖南师范大学自然科学学报;2014年01期
5 郭丽娟;倪子伟;江弋;邹权;;集成降采样不平衡数据分类方法研究[J];计算机科学与探索;2013年07期
6 袁兴梅;杨明;杨杨;;一种面向不平衡数据的结构化SVM集成分类器[J];模式识别与人工智能;2013年03期
7 李秋洁;茅耀斌;叶曙光;王执铨;;代价敏感Boosting算法研究[J];南京理工大学学报;2013年01期
8 张伶卫;万文强;;基于云计算平台的代价敏感集成学习算法研究[J];山东大学学报(工学版);2012年04期
9 于重重;田蕊;谭励;涂序彦;;非平衡样本分类的集成迁移学习算法[J];电子学报;2012年07期
10 赵卫中;马慧芳;李志清;史忠植;;一种结合主动学习的半监督文档聚类算法[J];软件学报;2012年06期
中国博士学位论文全文数据库 前2条
1 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
2 李军;不平衡数据学习的研究[D];吉林大学;2011年
本文关键词:综合过采样和欠采样的不平衡数据集的学习研究,由笔耕文化传播整理发布。
本文编号:381423
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/381423.html