当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于词性与LDA主题模型的文本分类技术研究

发布时间:2017-05-07 14:17

  本文关键词:基于词性与LDA主题模型的文本分类技术研究,,由笔耕文化传播整理发布。


【摘要】:随着“互联网+”时代的到来,需要处理的数据越来越多,文本挖掘的工作也显得越来越重要,人们希望能够从海量的信息文本中准确地获得想要的信息,于是对于现有的文本数据挖掘技术,人们提出来一系列更高的需求。文本分类作为文本数据挖掘的重要组成部分之一,目前已经广泛应用于信息过滤、搜索引擎、数字化图书馆、个性化推荐等多个领域,对它的研究拥有很强的现实意义。首先,本文介绍了文本分类技术的价值,简要介绍了当前时代下文本分类的课题背景;阐述了国内外目前对于文本表示、特征选择的研究现状;对传统文本分类技术的特征提取方法进行了剖析,针对其存在的特征空间维度大、分类效率低、准确率相对偏低的现状,结合词性在文本中的地位,提出了使用基于词性的特征选择的方法,同时将其与LDA主题模型结合使用,并深刻分析了该方法存在的意义与价值,以及其应用在LDA主题模型上的优势,以及对最终分类结果的性能评估的影响。其次,对文本分类过程中重要的环节,包括预处理、文本分词、特征提取、特征权重、分类算法、性能评估等,都选择了目前比较常用经典的算法以及实验中将会使用到的算法、指标等,进行了简要的介绍与原理分析,对文本分类的整体流程进行了系统性的介绍。然后,针对提出的基于词性的特征选择方法与结合LDA主题模型的方式,重点介绍了词关于词性的这个特性,以及LDA主题模型。为了验证词性的可用性,研究了典型特征提取算法提取的特征词的词性分布;然后有选择的筛选词性作为特征,研究其对特征空间降维的影响以及分类结果的影响;并对比筛选不同词性特征词组合的分类结果,分析各种词性的重要程度,以及它们在文本中的实际价值;最后结合词性与LDA主题模型,研究词性在LDA主题模型的作用于意义。通过系统的实验,使用真实的数据进行了最终的结果分析,得出名词、动词、形容词构成文本的主体,它们基本决定了文本的属性,其中尤其以名词表现最为突出的结论,验证了词性的重要性,同时也发现词性在传统特征选择算法中,并没有发挥太大的作用,反而能够从语料的角度来说,能够缩减原始数据集,从另一个角度降低分类算法的需要处理的数据量,从而节约了时间与空间,还能保持原有的正确率。同时在原有实验基础上,验证了LDA主题模型对于词性的依赖,证明了词性在LDA主题模型上的适用性,而且词性与LDA主题模型的结合使用拥有非常好的分类效果。最后,结合实验中遇到的问题,总结了下一步的研究方向,展望了文本分类技术在未来的发展趋势。
【关键词】:特征选择 词性 LDA主题模型 文本分类
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要3-5
  • Abstract5-9
  • 第一章 绪论9-15
  • 1.1 课题背景9
  • 1.2 国内外研究现状9-11
  • 1.3 研究意义11-13
  • 1.4 研究内容及主要工作13-14
  • 1.5 论文组织结构14-15
  • 第二章 文本分类技术15-31
  • 2.0 文本分类的一般流程15-16
  • 2.1 文本的表示16-18
  • 2.2 预处理18-20
  • 2.3 特征选择20-23
  • 2.3.1 特征评估算法20-22
  • 2.3.2 特征搜索算法22-23
  • 2.4 特征权重23-25
  • 2.5 分类算法25-28
  • 2.6 性能评估28-30
  • 2.6.1 评估方法28
  • 2.6.2 评估指标28-30
  • 2.7 本章小结30-31
  • 第三章 基于词性与LDA主题模型的特征选择31-37
  • 3.1 词性与LDA主题模型31-33
  • 3.2 传统的特征选择33-34
  • 3.3 基于词性与LDA主题模型的特征选择34-36
  • 3.4 本章小结36-37
  • 第四章 实验与分析37-60
  • 4.1 实验平台37
  • 4.2 实验数据37-38
  • 4.3 基于词性的传统文本特征选择38-50
  • 4.3.1 实验目标38-39
  • 4.3.2 实验流程39
  • 4.3.3 实验步骤39-42
  • 4.3.4 结果分析42-50
  • 4.4 基于词性与LDA主题模型的特征选择50-58
  • 4.4.1 实验目标50
  • 4.4.2 实验流程50-51
  • 4.4.3 实验步骤51-53
  • 4.4.4 结果分析53-58
  • 4.5 本章小结58-60
  • 第五章 总结与展望60-62
  • 5.1 总结60-61
  • 5.2 展望61-62
  • 参考文献62-66
  • 附录A 图索引66-68
  • 附录B 表索引68-69
  • Appendix A: Figure Index69-71
  • Appendix B: Table Index71-72
  • 致谢72

【相似文献】

中国期刊全文数据库 前10条

1 张浩;汪楠;;文本分类技术研究进展[J];科技信息(科学教研);2007年23期

2 周文霞;;现代文本分类技术研究[J];武警学院学报;2007年12期

3 张春红;;文本分类技术应用于学科导航分类的可行性探讨[J];情报科学;2009年07期

4 杨丽华;戴齐;杨占华;;文本分类技术研究[J];微计算机信息;2006年15期

5 胡恬;王敬;;中文文本分类技术的研究[J];科技咨询导报;2006年09期

6 徐大伟;董渊;张素琴;;文本分类技术在海洋信息处理领域中的应用[J];计算机科学;2008年11期

7 曹锋;张代远;;文本分类技术研究[J];电脑知识与技术;2009年32期

8 胡文静;;文本分类技术进展[J];知识经济;2011年10期

9 牛洪波;丁华福;;基于文本分类技术的信息过滤方法的研究[J];信息技术;2007年12期

10 于丽;;文本分类技术在陶瓷行业中的应用[J];现代计算机(专业版);2010年14期

中国重要会议论文全文数据库 前1条

1 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年

中国博士学位论文全文数据库 前2条

1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年

2 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年

中国硕士学位论文全文数据库 前10条

1 张鹏;基于文本分类技术的漏洞分类[D];贵州师范大学;2015年

2 张虹;短文本分类技术研究[D];辽宁师范大学;2015年

3 张勇;基于词性与LDA主题模型的文本分类技术研究[D];安徽大学;2016年

4 熊大康;中文短文本分类技术的研究与实现[D];安徽大学;2014年

5 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年

6 牛洪波;基于文本分类技术的信息过滤方法的研究[D];哈尔滨理工大学;2008年

7 李斌;基于文本分类技术的英语作文自动评分研究[D];苏州大学;2009年

8 胡晓辉;基于团结构的文本分类技术研究[D];江西师范大学;2008年

9 王宪刚;文本分类技术及在辅助决策中的应用研究[D];哈尔滨工业大学;2008年

10 张超林;文本分类技术在数字图书馆中的应用与研究[D];首都师范大学;2007年


  本文关键词:基于词性与LDA主题模型的文本分类技术研究,由笔耕文化传播整理发布。



本文编号:350035

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/350035.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0208c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com