中文短文本分类技术的研究与实现
发布时间:2017-09-07 10:39
本文关键词:中文短文本分类技术的研究与实现
【摘要】:文本分类是文本挖掘领域的一门重要学科,是指在已知的分类体系中,根据已知文本内容自动确定未知文本类别的过程,文本分类在一定程度上帮助用户处理获得的杂乱信息,有助于用户根据自己的倾向有选择地阅读海量的文本。目前多数情况下,文本分类大多是对于长文本进行分类,所处理的文本包含比较多的信息。然而,随着互联网的飞速发展,越来越多的短文本出现在生活中,由于短文本包含的信息量有限,传统的处理长文本的分类方法并不能很好用于处理短文本。 本文首先总结了国内外针对短文本分类技术的研究现状,现有的短文本分类方法大多需要背景知识库的支持,但是这些分类方法的普适性不是很强,而且处理背景知识库需要耗费大量的精力。常见的短文本主要有论坛发帖、产品评论、手机短信以及微博等等。与传统长文本相比较,短文本具有自己鲜明的特点,比如长度很短、用词不规范、新词不断出现等等。对短文本进行分类研究具有重要现实意义,与长文本相比较,短文本具有自己的突出特点,本文提出了基于搜索引擎和LDA主题模型的短文本分类方法。 然后,本文讨论了传统文本分类过程中重要的技术方法。包括文本的预处理,文本向量化表示,特征提取方法,常用分类方法等。同时指出这些方法需要改进的地方以便用于短文本的分类处理。 接着,文章介绍了LDA主题模型。并在主题模型的基础上结合搜索引擎,对短文本进行扩充处理和向量化表示。通过实验验证,本文提出的方法能够有效表示短文本,提高短文本分类的效果。 相信随着短文本分类技术不断的发展完善,短文本分类对于政府决策、网络信息监管、舆情引导等社会工作会起到广泛而深刻的意义。
【关键词】:文本挖掘 短文本 文本分类 主题模型
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要3-4
- Abstract4-5
- 目录5-7
- 第一章 绪论7-15
- 1.1 选题背景及意义7-8
- 1.2 国内外短文本分类技术研究现状8-13
- 1.2.1 短文本分类研究现状8-10
- 1.2.2 短文本的特点及分类研究中存在的难点10-13
- 1.3 自然语言处理简介13-14
- 1.4 本文内容组织结构14
- 1.5 本章小结14-15
- 第二章 信息检索模型15-24
- 2.1 布尔模型15
- 2.2 概率模型15-16
- 2.3 语言模型16
- 2.4 向量空间模型16-17
- 2.5 LDA主题模型17-22
- 2.5.1 主题模型简介17-18
- 2.5.2 LDA主题模型输入18-19
- 2.5.3 主题模型假设19
- 2.5.4 LDA主题模型表示19-20
- 2.5.5 参数估计与Gibbs抽样20-21
- 2.5.6 狄利克雷(Dirichlet)分布21-22
- 2.6 向量空间模型和主题模型比较分析22-23
- 2.7 本章小结23-24
- 第三章 常用文本分类相关技术24-37
- 3.1 相关技术概述24-25
- 3.2 文本预处理25-29
- 3.2.1 词干提取25
- 3.2.2 中文文本分词25-29
- 3.2.3 去除停用词29
- 3.3 文本表示29
- 3.4 特征提取29-32
- 3.4.1 互信息(MI)30-31
- 3.4.2 卡方统计量(CHI)31
- 3.4.3 信息增益(IG)31-32
- 3.4.4 期望交叉熵(ECE)32
- 3.4.5 文档频率(DF)32
- 3.5 常用分类方法32-36
- 3.5.1 Rocchio分类算法33
- 3.5.2 贝叶斯分类算法33-34
- 3.5.3 K最近邻分类算法34-35
- 3.5.4 支持向量机分类算法35-36
- 3.6 本章小结36-37
- 第四章 短文本信息扩充37-46
- 4.1 常用的短文本信息扩充方法37
- 4.2 基于搜索引擎的URL信息扩充方法37-45
- 4.2.1 网络爬虫38-39
- 4.2.2 搜索引擎选择39-43
- 4.2.3 URL信息获取算法43
- 4.2.4 JSOUP工具包43-44
- 4.2.5 短文本扩充算法44-45
- 4.3 本章小结45-46
- 第五章 实验与结果分析46-57
- 5.1 实验环境46
- 5.2 实验数据及结果评价指标46-47
- 5.3 预处理47-48
- 5.4 LDA模型工具使用48-52
- 5.4.1 JGibbLDA48-51
- 5.4.2 模型训练及实验方法输入51-52
- 5.5 SVM实验结果52-53
- 5.5.1 最优主题个数和主题模型分类结果52-53
- 5.5.2 基于卡方特征提取的分类结果53
- 5.6 朴素贝叶斯(NB)分类结果53-55
- 5.6.1 主题模型分类结果54-55
- 5.6.2 基于卡方特征提取的分类结果55
- 5.7 基于共现网页的相似度比较分类结果55-56
- 5.8 实验结果分析56
- 5.9 本章小结56-57
- 第六章 结束语57-59
- 6.1 总结57
- 6.2 研究展望57-59
- 参考文献59-62
- 致谢62-63
- 攻读硕士期间发表的论文63
【参考文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 吴友政;赵军;徐波;;基于主题语言模型的句子检索算法[J];计算机研究与发展;2007年02期
3 徐燕;李锦涛;王斌;孙春明;张森;;文本分类中特征选择的约束研究[J];计算机研究与发展;2008年04期
4 许震;沙朝锋;王晓玲;周傲英;;基于KL距离的非平衡数据半监督学习算法[J];计算机研究与发展;2010年01期
5 王鹏;樊兴华;;中文文本分类中利用依存关系的实验研究[J];计算机工程与应用;2010年03期
6 裴英博;刘晓霞;;文本分类中改进型CHI特征选择方法的研究[J];计算机工程与应用;2011年04期
7 宁亚辉;樊兴华;吴渝;;基于领域词语本体的短文本分类[J];计算机科学;2009年03期
8 宋枫溪,高林;文本分类器性能评估指标[J];计算机工程;2004年13期
9 杨凯峰;张毅坤;李燕;;基于文档频率的特征选择方法[J];计算机工程;2010年17期
10 李文波;孙乐;张大鲲;;基于Labeled-LDA模型的文本分类新算法[J];计算机学报;2008年04期
中国博士学位论文全文数据库 前1条
1 杜刚;新闻数据中突发话题检测研究[D];北京邮电大学;2012年
,本文编号:809057
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/809057.html