当前位置:主页 > 科技论文 > 搜索引擎论文 >

中文短文本分类技术的研究与实现

发布时间:2017-09-07 10:39

  本文关键词:中文短文本分类技术的研究与实现


  更多相关文章: 文本挖掘 短文本 文本分类 主题模型


【摘要】:文本分类是文本挖掘领域的一门重要学科,是指在已知的分类体系中,根据已知文本内容自动确定未知文本类别的过程,文本分类在一定程度上帮助用户处理获得的杂乱信息,有助于用户根据自己的倾向有选择地阅读海量的文本。目前多数情况下,文本分类大多是对于长文本进行分类,所处理的文本包含比较多的信息。然而,随着互联网的飞速发展,越来越多的短文本出现在生活中,由于短文本包含的信息量有限,传统的处理长文本的分类方法并不能很好用于处理短文本。 本文首先总结了国内外针对短文本分类技术的研究现状,现有的短文本分类方法大多需要背景知识库的支持,但是这些分类方法的普适性不是很强,而且处理背景知识库需要耗费大量的精力。常见的短文本主要有论坛发帖、产品评论、手机短信以及微博等等。与传统长文本相比较,短文本具有自己鲜明的特点,比如长度很短、用词不规范、新词不断出现等等。对短文本进行分类研究具有重要现实意义,与长文本相比较,短文本具有自己的突出特点,本文提出了基于搜索引擎和LDA主题模型的短文本分类方法。 然后,本文讨论了传统文本分类过程中重要的技术方法。包括文本的预处理,文本向量化表示,特征提取方法,常用分类方法等。同时指出这些方法需要改进的地方以便用于短文本的分类处理。 接着,文章介绍了LDA主题模型。并在主题模型的基础上结合搜索引擎,对短文本进行扩充处理和向量化表示。通过实验验证,本文提出的方法能够有效表示短文本,提高短文本分类的效果。 相信随着短文本分类技术不断的发展完善,短文本分类对于政府决策、网络信息监管、舆情引导等社会工作会起到广泛而深刻的意义。
【关键词】:文本挖掘 短文本 文本分类 主题模型
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
  • 摘要3-4
  • Abstract4-5
  • 目录5-7
  • 第一章 绪论7-15
  • 1.1 选题背景及意义7-8
  • 1.2 国内外短文本分类技术研究现状8-13
  • 1.2.1 短文本分类研究现状8-10
  • 1.2.2 短文本的特点及分类研究中存在的难点10-13
  • 1.3 自然语言处理简介13-14
  • 1.4 本文内容组织结构14
  • 1.5 本章小结14-15
  • 第二章 信息检索模型15-24
  • 2.1 布尔模型15
  • 2.2 概率模型15-16
  • 2.3 语言模型16
  • 2.4 向量空间模型16-17
  • 2.5 LDA主题模型17-22
  • 2.5.1 主题模型简介17-18
  • 2.5.2 LDA主题模型输入18-19
  • 2.5.3 主题模型假设19
  • 2.5.4 LDA主题模型表示19-20
  • 2.5.5 参数估计与Gibbs抽样20-21
  • 2.5.6 狄利克雷(Dirichlet)分布21-22
  • 2.6 向量空间模型和主题模型比较分析22-23
  • 2.7 本章小结23-24
  • 第三章 常用文本分类相关技术24-37
  • 3.1 相关技术概述24-25
  • 3.2 文本预处理25-29
  • 3.2.1 词干提取25
  • 3.2.2 中文文本分词25-29
  • 3.2.3 去除停用词29
  • 3.3 文本表示29
  • 3.4 特征提取29-32
  • 3.4.1 互信息(MI)30-31
  • 3.4.2 卡方统计量(CHI)31
  • 3.4.3 信息增益(IG)31-32
  • 3.4.4 期望交叉熵(ECE)32
  • 3.4.5 文档频率(DF)32
  • 3.5 常用分类方法32-36
  • 3.5.1 Rocchio分类算法33
  • 3.5.2 贝叶斯分类算法33-34
  • 3.5.3 K最近邻分类算法34-35
  • 3.5.4 支持向量机分类算法35-36
  • 3.6 本章小结36-37
  • 第四章 短文本信息扩充37-46
  • 4.1 常用的短文本信息扩充方法37
  • 4.2 基于搜索引擎的URL信息扩充方法37-45
  • 4.2.1 网络爬虫38-39
  • 4.2.2 搜索引擎选择39-43
  • 4.2.3 URL信息获取算法43
  • 4.2.4 JSOUP工具包43-44
  • 4.2.5 短文本扩充算法44-45
  • 4.3 本章小结45-46
  • 第五章 实验与结果分析46-57
  • 5.1 实验环境46
  • 5.2 实验数据及结果评价指标46-47
  • 5.3 预处理47-48
  • 5.4 LDA模型工具使用48-52
  • 5.4.1 JGibbLDA48-51
  • 5.4.2 模型训练及实验方法输入51-52
  • 5.5 SVM实验结果52-53
  • 5.5.1 最优主题个数和主题模型分类结果52-53
  • 5.5.2 基于卡方特征提取的分类结果53
  • 5.6 朴素贝叶斯(NB)分类结果53-55
  • 5.6.1 主题模型分类结果54-55
  • 5.6.2 基于卡方特征提取的分类结果55
  • 5.7 基于共现网页的相似度比较分类结果55-56
  • 5.8 实验结果分析56
  • 5.9 本章小结56-57
  • 第六章 结束语57-59
  • 6.1 总结57
  • 6.2 研究展望57-59
  • 参考文献59-62
  • 致谢62-63
  • 攻读硕士期间发表的论文63

【参考文献】

中国期刊全文数据库 前10条

1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期

2 吴友政;赵军;徐波;;基于主题语言模型的句子检索算法[J];计算机研究与发展;2007年02期

3 徐燕;李锦涛;王斌;孙春明;张森;;文本分类中特征选择的约束研究[J];计算机研究与发展;2008年04期

4 许震;沙朝锋;王晓玲;周傲英;;基于KL距离的非平衡数据半监督学习算法[J];计算机研究与发展;2010年01期

5 王鹏;樊兴华;;中文文本分类中利用依存关系的实验研究[J];计算机工程与应用;2010年03期

6 裴英博;刘晓霞;;文本分类中改进型CHI特征选择方法的研究[J];计算机工程与应用;2011年04期

7 宁亚辉;樊兴华;吴渝;;基于领域词语本体的短文本分类[J];计算机科学;2009年03期

8 宋枫溪,高林;文本分类器性能评估指标[J];计算机工程;2004年13期

9 杨凯峰;张毅坤;李燕;;基于文档频率的特征选择方法[J];计算机工程;2010年17期

10 李文波;孙乐;张大鲲;;基于Labeled-LDA模型的文本分类新算法[J];计算机学报;2008年04期

中国博士学位论文全文数据库 前1条

1 杜刚;新闻数据中突发话题检测研究[D];北京邮电大学;2012年



本文编号:809057

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/809057.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户aa87b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com