基于语义相似度的群智能文本聚类方法研究
本文选题:文本聚类 + 语义相似度 ; 参考:《江苏科技大学》2012年硕士论文
【摘要】:当今世界正处于一个信息爆炸的时代,用户查询信息时常常被信息淹没,迷失在信息中,这大大降低了检索的效率。如何快速高效的进行信息的分类管理,为用户提供准确有用的信息,是一个需要迫切解决的问题。在这样的背景下,,文本挖掘技术正受到越来越多的关注。文本聚类是文本挖掘的一个重要组成部分,它是聚类方法在文本处理领域的重要应用。 文本聚类由于不需要类别的信息,能自动完成文本分组,已经得到广泛应用,如多文档自动文摘系统、搜索引擎、数字图书馆等。目前大部分聚类算法是基于向量空间模型的,这使得文本聚类面临高维性、高稀疏性和忽略语义信息的问题,影响了算法的性能和准确性。 本文首先介绍了文本聚类中一些概念和方法,包括文本间距离计算、文本表示模型、文本预处理过程、聚类效果评价和常用的聚类算法等;接着介绍了《知网》的组织结构、相关概念和语义相似度的计算方法,同时也提出了一种改进的文本间相似度计算方法,将其和K-均值算法结合,通过实验数据,证明了该方法的正确性;最后介绍了本文的两种群智能算法,并提出了本文的基于语义相似度的群智能文本聚类算法。 在文本预处理的特征提取阶段计算权重时,既考虑了词频和文档频率,也结合了词的词性和词在文本中的位置这两个因素;针对向量空间模型忽略了词的语义信息的问题,本文利用《知网》,通过词的语义信息,来计算文本相似度;针对前人研究的成果,提出了本文的算法,它是在文本相似度的基础上,融合了K-均值算法、蚁群算法和模拟退火算法,利用了它们各自的优点,避免了各自的缺点,通过实验数据,可以看出该算法的有效性。
[Abstract]:Nowadays, the world is in an era of information explosion, when users search for information, they are often submerged by information and lost in information, which greatly reduces the efficiency of retrieval.How to manage information quickly and efficiently and provide users with accurate and useful information is an urgent problem.In this context, text mining technology is getting more and more attention.Text clustering is an important part of text mining, it is an important application of clustering method in the field of text processing.Text clustering has been widely used in many fields, such as multi-document automatic abstracting system, search engine, digital library and so on.At present, most clustering algorithms are based on vector space model, which makes text clustering face the problems of high dimension, high sparsity and neglecting semantic information, which affects the performance and accuracy of the algorithm.This paper first introduces some concepts and methods of text clustering, including text distance calculation, text representation model, text preprocessing process, clustering effect evaluation and common clustering algorithms, etc.At the same time, an improved method for calculating the similarity between texts is proposed, which is combined with the K-means algorithm. The experimental data show that the method is correct.Finally, this paper introduces two kinds of intelligent algorithms, and proposes a text clustering algorithm based on semantic similarity.When calculating the weight in the feature extraction stage of text preprocessing, we not only consider the word frequency and document frequency, but also combine the word's part of speech and the word's position in the text, and ignore the semantic information of the word in the vector space model.In this paper, the text similarity is calculated by the semantic information of words, and the algorithm of this paper is proposed, which is based on the similarity of the text, and combines the K-means algorithm, which is based on the text similarity.Ant colony algorithm and simulated annealing algorithm take advantage of their respective advantages and avoid their shortcomings. The validity of the algorithm can be seen from the experimental data.
【学位授予单位】:江苏科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 熊忠阳;暴自强;李智星;张玉芳;;结合LSA的中文谱聚类算法研究[J];计算机应用研究;2010年03期
2 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
3 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
4 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
5 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
6 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
7 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
8 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
9 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期
10 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
相关会议论文 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
6 黄佳来;王立波;袁道敏;;基于语义相似度的查询扩展研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
7 刘晓平;沈冠町;;协同讨论观点影响度分析方法及其应用[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
8 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 刘立;余正涛;王蒙;毛存礼;郭剑毅;;结合词相关特征与流行学习的中文问句分类[A];第六届全国信息检索学术会议论文集[C];2010年
10 刘寒磊;关毅;徐永东;;多文档文摘中基于语义相似度的最大边缘相关技术研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
相关重要报纸文章 前2条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
相关博士学位论文 前10条
1 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年
2 宋玲;语义相似度计算及其应用研究[D];山东大学;2009年
3 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
4 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
5 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
6 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
7 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
8 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
9 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
10 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
相关硕士学位论文 前10条
1 尹睿;基于语义相似度的论文文本聚类算法研究[D];大连理工大学;2009年
2 王曙光;基于蚁群的文本聚类算法的改进研究[D];大连理工大学;2006年
3 孙爽;基于语义相似度的文本聚类算法的研究[D];南京航空航天大学;2007年
4 孔静;基于语义和领域相关的文本聚类研究[D];中国石油大学;2009年
5 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
6 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
7 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
8 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
9 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
10 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
本文编号:1743872
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1743872.html