当前位置:主页 > 科技论文 > 搜索引擎论文 >

迁移与集成学习在文本分类中的应用研究

发布时间:2017-04-17 06:20

  本文关键词:迁移与集成学习在文本分类中的应用研究,由笔耕文化传播整理发布。


【摘要】:迁移学习是解决数据跨领域问题的一种有效方式,它从过期数据中学习知识来帮助认知新任务,由于其打破了传统机器学习“独立同分布”的假设,被成功应用于很多领域。集成学习通过组建多个有差异的分类器建立预测模型,由于其突出的稳定性和泛化性,成为机器学习研究的热点之一。本文以新闻文本分类为背景,对迁移学习和集成Bagging算法进行了研究,并得出一种改进的组合算法,为在少量目标训练集的情况下进行分类提供了一种适用的框架。首先阐述了集成学习的概念、发展现状,迁移学习的概念、对比分类、应用领域。之后,对新闻文本数据集的预处理过程进行详细的描述,讨论确认了参数和特征选择算法,使预测分类模型的训练数据输入更精准合适。最后,本文针对目标域的训练样本数量较少,无法建立优质分类模型的问题,探讨了一种在迁移框架下基于集成Bagging算法的跨领域分类模型。该模型引入源域的数据并对其进行筛选,学习混合数据集,从而建立基于集成Bagging算法的分类模型,最终投票得出预测结果。通过仿真实验的对比,采用基于贝叶斯基分类器的集成Bagging算法能使源域的迁移和目标域的分类准确率、泛化性能最好。同时,本文分析了源域中的噪音数据的数量对分类模型的影响,实验结果表明基于迁移集成Bagging算法的模型可以部分地规避负迁移。综上所述,本文针对不同的特征选择算法,研究了文本预处理过程中特征选择算法的差异。针对国内搜索引擎中很少能找到完整的英文预处理流程,本文改进了中文文本处理程序,整理出一套完整的图形化的英文文本预处理方式。将迁移学习与集成学习结合起来,综合探讨了跨领域的数据和不平衡数据的解决方式,给出了一种基于选择迁移的集成Bagging算法的分类模型,实验表明该模型整体性能较好,并且能规避一定的负迁移。
【关键词】:文本分类 迁移学习 集成Bagging 预处理 负迁移
【学位授予单位】:江苏科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要6-7
  • Abstract7-13
  • 第1章 绪论13-17
  • 1.1 研究背景13-14
  • 1.2 国内外研究现状14-15
  • 1.3 本文工作15-16
  • 1.4 组织结构16-17
  • 第2章 集成学习与迁移学习的相关理论17-25
  • 2.1 集成学习17-20
  • 2.1.1 集成学习概念17
  • 2.1.2 现状与发展17-18
  • 2.1.3 Bagging与Boosting算法簇18-20
  • 2.2 迁移学习20-24
  • 2.2.1 迁移学习概念20-21
  • 2.2.2 迁移学习的分类21-23
  • 2.2.3 迁移学习的对比23
  • 2.2.4 迁移学习的应用23-24
  • 2.3 本章小结24-25
  • 第3章 文本数据预处理25-41
  • 3.1 引言25
  • 3.2 建立数据集25-27
  • 3.3 文本表示27-28
  • 3.4 特征选择28-31
  • 3.5 仿真实验31-37
  • 3.5.1 短文本处理实验31-34
  • 3.5.2 特征选择算法对比实验34-37
  • 3.6 文本预处理系统设计37-40
  • 3.7 本章小结40-41
  • 第4章 基于选择迁移的Bagging文本分类算法41-47
  • 4.1 引言41-42
  • 4.2 问题描述42-43
  • 4.3 基于分类的选择迁移算法(ADS)43-45
  • 4.3.1 相关分类器43-44
  • 4.3.2 基于分类的选择迁移算法描述(ADS)44-45
  • 4.4 基于选择迁移的Bagging算法描述(A-TTB)45-46
  • 4.4.1 相关Transfer Bagging算法45
  • 4.4.2 基于选择迁移的Bagging算法(A-TTB)45-46
  • 4.5 本章小结46-47
  • 第5章 实验与分析47-63
  • 5.1 数据集介绍47-49
  • 5.2 实验环境与工具49-50
  • 5.3 实验过程50-55
  • 5.4 实验结果与分析55-62
  • 5.4.1 ADS实验结果与分析55-57
  • 5.4.2 A-TTB实验结果与分析57-62
  • 5.5 本章小结62-63
  • 结论与展望63-65
  • 参考文献65-69
  • 攻读学位期间发表的学术论文69-70
  • 致谢70

【参考文献】

中国期刊全文数据库 前1条

1 刘伟;张化祥;;数据集动态重构的集成迁移学习[J];计算机工程与应用;2010年12期


  本文关键词:迁移与集成学习在文本分类中的应用研究,由笔耕文化传播整理发布。



本文编号:312638

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/312638.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fa7db***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com