中文短文本分类技术的研究与实现

发布时间：2017-09-07 10:39

本文关键词：中文短文本分类技术的研究与实现

【摘要】：文本分类是文本挖掘领域的一门重要学科,是指在已知的分类体系中,根据已知文本内容自动确定未知文本类别的过程,文本分类在一定程度上帮助用户处理获得的杂乱信息,有助于用户根据自己的倾向有选择地阅读海量的文本。目前多数情况下,文本分类大多是对于长文本进行分类,所处理的文本包含比较多的信息。然而,随着互联网的飞速发展,越来越多的短文本出现在生活中,由于短文本包含的信息量有限,传统的处理长文本的分类方法并不能很好用于处理短文本。本文首先总结了国内外针对短文本分类技术的研究现状,现有的短文本分类方法大多需要背景知识库的支持,但是这些分类方法的普适性不是很强,而且处理背景知识库需要耗费大量的精力。常见的短文本主要有论坛发帖、产品评论、手机短信以及微博等等。与传统长文本相比较,短文本具有自己鲜明的特点,比如长度很短、用词不规范、新词不断出现等等。对短文本进行分类研究具有重要现实意义,与长文本相比较,短文本具有自己的突出特点,本文提出了基于搜索引擎和LDA主题模型的短文本分类方法。然后,本文讨论了传统文本分类过程中重要的技术方法。包括文本的预处理,文本向量化表示,特征提取方法,常用分类方法等。同时指出这些方法需要改进的地方以便用于短文本的分类处理。接着,文章介绍了LDA主题模型。并在主题模型的基础上结合搜索引擎,对短文本进行扩充处理和向量化表示。通过实验验证,本文提出的方法能够有效表示短文本,提高短文本分类的效果。相信随着短文本分类技术不断的发展完善,短文本分类对于政府决策、网络信息监管、舆情引导等社会工作会起到广泛而深刻的意义。
【关键词】：文本挖掘 短文本 文本分类 主题模型
【学位授予单位】：安徽大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TP391.1
【目录】：

摘要3-4
Abstract4-5
目录5-7
第一章绪论7-15
1.1 选题背景及意义7-8
1.2 国内外短文本分类技术研究现状8-13
1.2.1 短文本分类研究现状8-10
1.2.2 短文本的特点及分类研究中存在的难点10-13
1.3 自然语言处理简介13-14
1.4 本文内容组织结构14
1.5 本章小结14-15
第二章信息检索模型15-24
2.1 布尔模型15
2.2 概率模型15-16
2.3 语言模型16
2.4 向量空间模型16-17
2.5 LDA主题模型17-22
2.5.1 主题模型简介17-18
2.5.2 LDA主题模型输入18-19
2.5.3 主题模型假设19
2.5.4 LDA主题模型表示19-20
2.5.5 参数估计与Gibbs抽样20-21
2.5.6 狄利克雷(Dirichlet)分布21-22
2.6 向量空间模型和主题模型比较分析22-23
2.7 本章小结23-24
第三章常用文本分类相关技术24-37
3.1 相关技术概述24-25
3.2 文本预处理25-29
3.2.1 词干提取25
3.2.2 中文文本分词25-29
3.2.3 去除停用词29
3.3 文本表示29
3.4 特征提取29-32
3.4.1 互信息(MI)30-31
3.4.2 卡方统计量(CHI)31
3.4.3 信息增益(IG)31-32
3.4.4 期望交叉熵(ECE)32
3.4.5 文档频率(DF)32
3.5 常用分类方法32-36
3.5.1 Rocchio分类算法33
3.5.2 贝叶斯分类算法33-34
3.5.3 K最近邻分类算法34-35
3.5.4 支持向量机分类算法35-36
3.6 本章小结36-37
第四章短文本信息扩充37-46
4.1 常用的短文本信息扩充方法37
4.2 基于搜索引擎的URL信息扩充方法37-45
4.2.1 网络爬虫38-39
4.2.2 搜索引擎选择39-43
4.2.3 URL信息获取算法43
4.2.4 JSOUP工具包43-44
4.2.5 短文本扩充算法44-45
4.3 本章小结45-46
第五章实验与结果分析46-57
5.1 实验环境46
5.2 实验数据及结果评价指标46-47
5.3 预处理47-48
5.4 LDA模型工具使用48-52
5.4.1 JGibbLDA48-51
5.4.2 模型训练及实验方法输入51-52
5.5 SVM实验结果52-53
5.5.1 最优主题个数和主题模型分类结果52-53
5.5.2 基于卡方特征提取的分类结果53
5.6 朴素贝叶斯(NB)分类结果53-55
5.6.1 主题模型分类结果54-55
5.6.2 基于卡方特征提取的分类结果55
5.7 基于共现网页的相似度比较分类结果55-56
5.8 实验结果分析56
5.9 本章小结56-57
第六章结束语57-59
6.1 总结57
6.2 研究展望57-59
参考文献59-62
致谢62-63
攻读硕士期间发表的论文63

【参考文献】

中国期刊全文数据库前10条

1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期

2 吴友政;赵军;徐波;;基于主题语言模型的句子检索算法[J];计算机研究与发展;2007年02期

3 徐燕;李锦涛;王斌;孙春明;张森;;文本分类中特征选择的约束研究[J];计算机研究与发展;2008年04期

4 许震;沙朝锋;王晓玲;周傲英;;基于KL距离的非平衡数据半监督学习算法[J];计算机研究与发展;2010年01期

5 王鹏;樊兴华;;中文文本分类中利用依存关系的实验研究[J];计算机工程与应用;2010年03期

6 裴英博;刘晓霞;;文本分类中改进型CHI特征选择方法的研究[J];计算机工程与应用;2011年04期

7 宁亚辉;樊兴华;吴渝;;基于领域词语本体的短文本分类[J];计算机科学;2009年03期

8 宋枫溪,高林;文本分类器性能评估指标[J];计算机工程;2004年13期

9 杨凯峰;张毅坤;李燕;;基于文档频率的特征选择方法[J];计算机工程;2010年17期

10 李文波;孙乐;张大鲲;;基于Labeled-LDA模型的文本分类新算法[J];计算机学报;2008年04期

中国博士学位论文全文数据库前1条

1 杜刚;新闻数据中突发话题检测研究[D];北京邮电大学;2012年

，

本文编号：809057

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/809057.html

上一篇：审计搜索引擎建立:审计标准化路径设计
下一篇：SEO技术在中小型企业网络营销中的应用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|