当前位置:主页 > 科技论文 > 软件论文 >

基于半监督的SVM迁移学习文本分类方法

发布时间:2017-05-24 08:17

  本文关键词:基于半监督的SVM迁移学习文本分类方法,由笔耕文化传播整理发布。


【摘要】:随着互联网的快速发展,各种信息风靡网络,而这些网络信息主要通过文本的形式来表达,因此对文本数据进行合理有效的处理是十分必要的。文本分类是进行信息挖掘的一种重要数据分析方法,它能够从数据中挖掘关键信息并构建模型,使计算机从过去的数据中获取知识,解决问题。传统的文本分类方法在要求有充足标注数据训练模型的同时还要求训练数据与测试数据属于同一分布。支持向量机(SVM)作为常用文本分类方法之一,特别适合处理像文本这样的数据集较大的分类问题。然而,SVM在处理分类问题时也常会因为训练样本不充分而无法学习到高精度的分类模型。近年来,在SVM算法中引入半监督学习模式,利用大量未标注数据与少量标注数据共同训练分类器,在一定程度上解决了训练数据不充分的问题,但半监督学习仍需满足训练数据与测试数据同分布假设。迁移学习是最近兴起的一种有效解决上述问题的学习方式,其可以利用相似领域中大量标注数据来帮助新领域目标任务的学习。于是在SVM中引入迁移学习,在提供大量标注数据的同时还放宽了对数据分布的要求。本文通过结合迁移学习和半监督学习来研究文本分类问题,主要研究内容如下:(1)针对传统有监督SVM文本分类方法的不足,详细描述了半监督式的自训练SVM分类方法,包括其基本思想、具体流程以及存在的缺陷。(2)针对以往SVM迁移学习方法在训练过程中大量迁移与目标数据很不相似的源领域数据的问题,提出了一种利用源域支持向量进行相似迁移的方法。该方法先利用源领域训练得到的支持向量代表源领域数据,再利用源域支持向量与目标训练集的相似度来衡量源域数据的重要性,进而有效的对源领域知识进行迁移。(3)考虑到未标注数据可能包含有对分类起重要作用的信息,提出了结合目标领域未标注数据共同学习分类模型的基于半监督的SVM迁移学习分类方法。该方法以SVM迁移模型为基础分类器,给未标注数据带上初始标签并共同学习分类模型,进一步提高了分类器性能。将本文提出的SVM迁移学习方法以及基于半监督的SVM迁移学习方法与传统的SVM方法在20Newsgroups数据集上进行实验对比,证明了本文提出方法的有效性。然后与传统的文本分类方法进行比较,证明了本文方法的可行性与优越性。
【关键词】:迁移学习 半监督学习 SVM 文本分类
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要4-6
  • ABSTRACT6-14
  • 第一章 绪论14-20
  • 1.1 研究背景与意义14-15
  • 1.2 国内外研究现状15-18
  • 1.2.1 文本分类研究现状15-16
  • 1.2.2 半监督学习研究现状16
  • 1.2.3 迁移学习研究现状16-18
  • 1.3 本文主要研究内容18-19
  • 1.4 论文组织结构19-20
  • 第二章 相关理论20-36
  • 2.1 文本分类概述20
  • 2.2 文本分类流程20-32
  • 2.2.1 文本预处理21-23
  • 2.2.2 分类算法23-31
  • 2.2.3 评估标准31-32
  • 2.3 迁移学习32-35
  • 2.3.1 迁移学习概述32
  • 2.3.2 迁移学习类型32-34
  • 2.3.3 与传统机器学习的比较34-35
  • 2.3.4 迁移学习的应用35
  • 2.4 本章小结35-36
  • 第三章 基于半监督的SVM分类算法36-41
  • 3.1 半监督学习概述36
  • 3.2 自训练分类算法36-38
  • 3.3 STSVM算法描述38-40
  • 3.3.1 SVM分类应用半监督学习的意义38
  • 3.3.2 算法具体描述38-40
  • 3.4 本章小结40-41
  • 第四章 基于半监督的SVM迁移学习文本分类算法41-53
  • 4.1 SVM分类运用迁移学习的意义41
  • 4.2 Transfer-SVM算法描述41-48
  • 4.2.1 算法问题描述41-42
  • 4.2.2 算法核心思想42-46
  • 4.2.3 目标函数构造46-48
  • 4.2.4 算法具体描述48
  • 4.2.5 算法预期48
  • 4.3 Transfer-STSVM算法描述48-52
  • 4.3.1 算法核心思想48-50
  • 4.3.2 目标函数构造50-51
  • 4.3.3 算法具体描述51-52
  • 4.3.4 算法预期52
  • 4.4 本章小结52-53
  • 第五章 算法测试与分析53-62
  • 5.1 实验准备53-57
  • 5.1.1 实验环境53
  • 5.1.2 数据集说明53-56
  • 5.1.3 数据预处理56-57
  • 5.2 实验设置57
  • 5.3 算法测试与分析57-61
  • 5.4 算法效率61
  • 5.5 本章小结61-62
  • 总结与展望62-64
  • 参考文献64-68
  • 攻读学位期间发表论文68-70
  • 致谢70

【参考文献】

中国期刊全文数据库 前4条

1 张博;史忠植;赵晓非;张建华;;一种基于跨领域典型相关性分析的迁移学习方法[J];计算机学报;2015年07期

2 庄福振;罗平;何清;史忠植;;迁移学习研究进展[J];软件学报;2015年01期

3 郑世卓;崔晓燕;;基于半监督LDA的文本分类应用研究[J];软件;2014年01期

4 许敏;王士同;顾鑫;;TL-SVM:一种迁移学习算法[J];控制与决策;2014年01期


  本文关键词:基于半监督的SVM迁移学习文本分类方法,由笔耕文化传播整理发布。



本文编号:390230

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/390230.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b131d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com