当前位置:主页 > 科技论文 > 自动化论文 >

基于多分类器集成及半监督学习的不平衡数据分类研究

发布时间:2017-10-03 09:23

  本文关键词:基于多分类器集成及半监督学习的不平衡数据分类研究


  更多相关文章: 不平衡数据分类 多分类器集成 半监督学习 协同训练 Tri-training


【摘要】:随着网络媒体和互联网技术的高速发展,Internet上充斥着各种海量的信息,且在不断变化更新,来源也更为广泛。怎样从海量的且不断变化的大数据中得到符合用户所需信息已经成为各机器学习的一个重要课题。同时,不平衡数据的分类问题也日益突出,原有的机器学习方法已经不适合解决这类问题。因此对不平衡数据的分类问题的研究存在着更大的挑战。一般来讲,解决不平衡数据分类问题通常使用的方法主要从两个角度出发:从数据层面和从算法层面对不平衡数据分类问题都分别进行了相关的深入研究。本文对于不衡数据分类问题所做的工作主要如下:1.基于多分类器集成的不平衡数据分类不平衡数据分类问题中用到的一个关键技术就是多分类器集成,为确保其集成的学习效果,必须改进以下两方面的内容,一是要使单个弱分类器的分类准确率提高,另一方面要增强单个弱分类器之间互相的差异性以及多样性。对于不平衡数据集来说,正负样本的分布不均衡,使训练所得的分类器对稀有类的识别率极低,从而导致分类器的分类性能差。针对这种情况,本文提出一种基于KPCA和RST的多分类器集成方法,首先将不平衡数据集采取降维的方式,并提取其主要特征,获取有代表性的样本信息,其次通过重构数据集的方法改变训练集样本分布,降低其不平衡度,这就使得单个弱分类器的分类准确率大大提高。由于重构数据集时,对训练集合的划分是采用随机采样的方式,这在一定程度上又增强了单个弱分类器之间的差异性。2.基于半监督学习的不平衡数据分类在不平衡数据分类问题中,由于稀有类样本的数量稀缺,为更有效的利用数据集中存在的数量丰富的且不带标记的样本数据信息,本文创新的将半监督学习的方法应用于解决不平衡数据的分类问题中,并对Tri-training算法进行改进处理。首先将三个互不相同的分类器引入到训练和学习过程中,进而使各个分类器互相的差异性增强。其次,改进的Tri-training算法不是采用多数投票法来对分类器集成,而是在加权投票时,引入了分类器对样本标记的准确率来实现分类器的集成,进而使学习所得的分类器对未知数据样本的预测更加准确。实验结果显示,本文改进的方法可使不平衡数据分类的准确率和查全率有效提高。
【关键词】:不平衡数据分类 多分类器集成 半监督学习 协同训练 Tri-training
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181
【目录】:
  • 摘要6-7
  • ABSTRACT7-9
  • 第一章 绪论9-14
  • 1.1 研究背景与意义9
  • 1.2 不平衡数据分类的基本概念及国内外研究现状9-12
  • 1.2.1 不平衡数据分类的基本概念9-10
  • 1.2.2 国内外研究现状10-11
  • 1.2.3 不平衡数据分类面临的问题和挑战11-12
  • 1.3 本文的主要工作12-13
  • 1.4 本文的组织结构13-14
  • 第二章 不平衡数据分类研究综述14-21
  • 2.1 不平衡数据分类14-18
  • 2.1.1 数据层面的方法14-16
  • 2.1.2 算法层面的方法16-18
  • 2.2 不平衡数据分类评价指标18-20
  • 2.3 本章小结20-21
  • 第三章 基于多分类器集成的不平衡数据分类21-33
  • 3.1 数据预处理21-24
  • 3.1.1 KPCA主成分分析21-23
  • 3.1.2 重构数据集23-24
  • 3.2 多分类器集成24-30
  • 3.2.1 KNN最近邻分类算法24-25
  • 3.2.2 SVM分类算法25-27
  • 3.2.3 朴素贝叶斯分类算法27-28
  • 3.2.4 多分类器集成28-30
  • 3.3 实验结果及其分析30-32
  • 3.4 本章小结32-33
  • 第四章 基于半监督学习的不平衡数据分类33-39
  • 4.1 半监督学习33-35
  • 4.1.1 协同训练算法(Co-training)34-35
  • 4.1.2 Tri-training算法35
  • 4.2 改进的Tri-training算法35-37
  • 4.3 实验结果及其分析37-38
  • 4.4 本章小结38-39
  • 第五章 总结与展望39-41
  • 5.1 本文内容总结39-40
  • 5.2 进一步工作40-41
  • 参考文献41-44
  • 攻读硕士学位期间发表的论文44-45
  • 致谢45

【参考文献】

中国期刊全文数据库 前5条

1 苏艳;居胜峰;王中卿;李寿山;周国栋;;基于随机特征子空间的半监督情感分类方法研究[J];中文信息学报;2012年04期

2 付忠良;;多分类问题代价敏感AdaBoost算法[J];自动化学报;2011年08期

3 叶志飞;文益民;吕宝粮;;不平衡分类问题研究综述[J];智能系统学报;2009年02期

4 邓超;郭茂祖;;基于Tri-Training和数据剪辑的半监督聚类算法[J];软件学报;2008年03期

5 刘胥影;吴建鑫;周志华;;一种基于级联模型的类别不平衡数据分类方法[J];南京大学学报(自然科学版);2006年02期



本文编号:964401

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/964401.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户22d9a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com