基于半监督学习的中文短文本分类研究
本文关键词:基于半监督学习的中文短文本分类研究,由笔耕文化传播整理发布。
【摘要】:随着即时通信和互联网技术的快速发展,网络中的信息每天都在以一定的速率增长着,生活中最常见的就是如:网络新闻、微博及其评论、聊天记录、手机短消息、科技文献摘要、搜索引擎返回的结果和社区论坛中的发帖回复等形式的短文本信息,这类文本通常都控制在160个字左右,存在的种类样式繁多,而且经常以口语化、生活化的不规则形式出现。特征词较少、关联性不强是这类短文本的主要特点,并且其中可能隐匿着一些有价值的信息内容,因而对短文本进行有效的组织分类是非常有必要的。传统的文本分类方法大多是以长文本作为对象进行研究的,如果直接套用于短文本将会影响分类取得的效果。另外,通常用于构建传统文本分类器的已标注样本是需要由人工进行标注才能获得的,既费时又费力,还易形成标注瓶颈,而相比之下,,数量颇为丰富的未经标注样本的获取与搜集却是较为容易的。 传统基于监督学习的分类方法,仅仅是使用了数据样本集合中的已标注部分,并没有注意到其中未标注样本的存在价值,未能较好地挖掘出可能隐藏的信息。而半监督学习的方法则是可以将少量的已标注样本与大量的未经标注样本相结合起来进行学习训练,从而使未标注部分能被充分地利用,文本分类器性能得到有效地改善,因此这样的方法也逐渐地被人们所关注。 考虑到短文本不同于长文本的特点,再加上参考了已有的相关研究成果,本文在现有的分类算法基础上,将半监督学习的思想贯穿到短文本分类的过程当中,改进地使用维基百科对短文本进行特征扩展,提出一种基于半监督学习的文本分类方法,用于实现对短文本的有效分类。该方法通过使用外部知识资源库构建的特征词扩展表对短文本进行信息扩充以解决特征稀疏等问题,然后构建基于监督学习的初始中间过程的分类器,不断地迭代训练数据样本中未标注部分,再用更新过的训练样本集来构建最终的文本分类器,通过实验验证了该方法能够达到充分利用大量未标注样本来改善分类器性能的目的。 另外,为了解决传统基于向量空间模型构建短文本分类器时造成的文本结构信息的缺失以及大量样本存在的标注瓶颈问题,提出了一种利用图结构模型进行半监督文本分类的方法,将数量规模较大的未标注样本与少量的已标注样本相结合进行基于图结构的自学习,进行基于最大公共子图的相似度计算,保留了短文本的结构关联关系,通过对未标注样本的自学习来实现训练样本集的扩充。最后经对比实验表明,这种方法能够获得较好的分类效果。
【关键词】:文本分类 短文本 半监督学习 自训练 图结构
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要3-4
- Abstract4-6
- 目录6-8
- 第一章 绪论8-14
- 1.1 研究背景与意义8-9
- 1.2 国内外研究现状9-11
- 1.2.1 短文本分类研究现状9
- 1.2.2 半监督学习研究现状9-10
- 1.2.3 研究现状分析10-11
- 1.3 本文的主要研究内容11-12
- 1.4 本文的组织结构12-14
- 第二章 相关理论14-26
- 2.1 文本分类概述14-19
- 2.1.1 文本分类的过程14-16
- 2.1.2 常用文本分类方法16-17
- 2.1.3 分类性能评估指标17-19
- 2.2 短文本分类概述19-21
- 2.2.1 中文短文本的定义及特点19-20
- 2.2.2 中文短文本分类的作用20
- 2.2.3 短文本分类的研究方向20-21
- 2.3 半监督学习理论21-25
- 2.3.1 半监督学习的定义21-22
- 2.3.2 监督学习与半监督学习对比22-23
- 2.3.3 半监督学习的常用方法23-25
- 2.4 本章小结25-26
- 第三章 基于自训练的短文本分类方法26-36
- 3.1 研究思路26-27
- 3.2 基于自训练的短文本分类算法27-32
- 3.2.1 改进的短文本特征扩展27-29
- 3.2.2 用于构建监督学习的初始分类器的方法29-30
- 3.2.3 构建用于半监督学习的基础模型30-32
- 3.3 实验与分析32-35
- 3.3.1 实验环境和工具32
- 3.3.2 实验数据32-33
- 3.3.3 实验结果分析33-35
- 3.4 本章小结35-36
- 第四章 基于图结构半监督学习的短文本分类36-46
- 4.1 研究思路36
- 4.2 图结构文本表示模型36-38
- 4.2.1 图结构的定义37-38
- 4.2.2 构建文本图结构38
- 4.3 利用图结构进行自训练的分类算法38-41
- 4.3.1 算法思想38-39
- 4.3.2 算法流程39-41
- 4.4 实验结果及其分析41-44
- 4.4.1 实验准备41-42
- 4.4.2 实验结果及分析42-44
- 4.5 本章小结44-46
- 第五章 总结及未来展望46-50
- 5.1 总结46-47
- 5.2 进一步工作47-50
- 致谢50-52
- 参考文献52-58
- 硕士期间科研成果58-59
【参考文献】
中国期刊全文数据库 前10条
1 白秋产;金春霞;;概念属性扩展的短文本聚类算法[J];长春师范学院学报;2011年10期
2 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
3 侯翠琴;焦李成;;基于图的Co-Training网页分类[J];电子学报;2009年10期
4 张博锋;白冰;苏金树;;基于自训练EM算法的半监督文本分类[J];国防科技大学学报;2007年06期
5 郭泗辉;樊兴华;;一种改进的贝叶斯网络短文本分类算法[J];广西师范大学学报(自然科学版);2010年03期
6 冯时;景珊;杨卓;王大玲;;基于LDA模型的中文微博话题意见领袖挖掘[J];东北大学学报(自然科学版);2013年04期
7 韩红旗;朱东华;刘嵩;汪雪锋;;关联词约束的半监督文本分类方法[J];计算机工程与应用;2010年04期
8 张晓孪;王西锋;;基于概念图的汉语语义计算的研究与实现[J];计算机工程与应用;2011年10期
9 宁亚辉;樊兴华;吴渝;;基于领域词语本体的短文本分类[J];计算机科学;2009年03期
10 林小俊;张猛;暴筱;李军;吴玺宏;;基于概念网络的短文本分类方法[J];计算机工程;2010年21期
中国博士学位论文全文数据库 前1条
1 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年
本文关键词:基于半监督学习的中文短文本分类研究,由笔耕文化传播整理发布。
本文编号:280580
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/280580.html