当前位置:主页 > 科技论文 > 软件论文 >

中文文本聚类算法研究

发布时间:2017-06-27 00:11

  本文关键词:中文文本聚类算法研究,由笔耕文化传播整理发布。


【摘要】:聚类作为一种无监督的学习算法,具有一定的灵活性和较高的自动化处理能力。其应用领域非常广泛,它可以结合文本挖掘技术,对文本进行聚类分析,从而可以应用于搜索引擎中,方便用户快速搜索到自己想要的有价值的信息,同时也可以应用于垃圾邮件的过滤、文档归类等问题中。本文主要研究的是中文文本聚类算法。首先对课题的研究背景和意义进行了阐述,随后引入文本挖掘的概念,并对文本挖掘的相关技术进行研究,利用R语言中的Rwordseg包和jiebaR包实现文本的分词、研究文本特征提取与降维技术,如常见的TF-IDF技术。在第三章中对文本聚类的流程和常见的聚类算法做总结。重点介绍了VSM文本表示模型和几种常用的聚类算法。最后应用k-means、hclust聚类算法对旅游业的用户点评数据进行聚类,并分析聚类效果。同时加入电子商务业的点评数据进行文本聚类,和旅游业的聚类效果对比分析。
【关键词】:文本挖掘 文本聚类 聚类算法
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • Abstract5-7
  • 第一章 绪论7-9
  • 1.1 课题研究背景与意义7
  • 1.2 文本聚类的发展历程7-8
  • 1.3 本文研究内容8-9
  • 第二章 文本挖掘9-14
  • 2.1 文本挖掘的思想9
  • 2.2 文本挖掘相关技术总结9-10
  • 2.3 中文文本的预处理技术10-14
  • 2.3.1 中文文本分词技术10-12
  • 2.3.2 特征提取与降维12-14
  • 第三章 文本聚类14-18
  • 3.1 文本聚类思想14
  • 3.2 文本聚类的相关流程14-15
  • 3.3 文本表示模型15
  • 3.4 聚类算法模型15-18
  • 第四章 文本聚类算法实现18-26
  • 4.1 文本相似度计算方式18-19
  • 4.2 R语言中文本聚类实现19-26
  • 4.2.1 文本表示过程19-22
  • 4.2.2 基于k-means聚类算法的文本聚类22-23
  • 4.2.3 基于hclust聚类算法的文本聚类23-24
  • 4.2.4 两种聚类算法效果差的原因解释24-26
  • 第五章 总结26-27
  • 参考文献27-29
  • 附录29-30
  • 致谢30-31

【相似文献】

中国期刊全文数据库 前10条

1 龚静;李英杰;;文本聚类算法的分析与比较[J];湖南环境生物职业技术学院学报;2006年03期

2 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期

3 甘克勤;丛超;张宝林;孙旭凯;;基于划分的文本聚类算法在标准文献中的试验与对比研究[J];标准科学;2013年10期

4 莫紫娟;;试论短文本聚类算法在微博的应用[J];科技致富向导;2014年09期

5 史梦洁;;文本聚类算法综述[J];现代计算机(专业版);2014年03期

6 张书敏;;短文本聚类算法研究[J];科技致富向导;2013年09期

7 朱君;曲超;汤庸;;利用单词超团的二分图文本聚类算法[J];电子科技大学学报;2008年03期

8 石晓敬;韩燮;;文本聚类算法的设计与实现[J];计算机工程与设计;2010年09期

9 殷风景;肖卫东;葛斌;李芳芳;;一种面向网络话题发现的增量文本聚类算法[J];计算机应用研究;2011年01期

10 李岩;娄云;;文本聚类算法在舆情监控中的应用分析[J];电子设计工程;2013年01期

中国重要会议论文全文数据库 前1条

1 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

中国硕士学位论文全文数据库 前10条

1 程杨;中文短文本聚类算法的研究[D];吉林大学;2016年

2 汪丹丹;中文文本聚类算法研究[D];苏州大学;2016年

3 马文超;基于2度频繁词序列的文本聚类算法研究[D];河南大学;2009年

4 刘龙海;基于成对约束的半监督文本聚类算法研究[D];重庆大学;2011年

5 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年

6 潘启蒙;文本聚类算法的研究与实现[D];吉林大学;2008年

7 郭增新;基于语义的文本聚类算法研究[D];西安电子科技大学;2012年

8 高利波;文本聚类算法的研究及应用[D];电子科技大学;2013年

9 马素琴;基于相似度的文本聚类算法研究及应用[D];江苏大学;2010年

10 翟献民;维吾尔语文本聚类算法研究[D];新疆大学;2013年


  本文关键词:中文文本聚类算法研究,,由笔耕文化传播整理发布。



本文编号:488020

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/488020.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户77e7c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com