应用于文本搜索引擎的聚类算法研究
发布时间:2018-06-27 01:53
本文选题:搜索引擎 + 中文聚类 ; 参考:《上海交通大学》2012年硕士论文
【摘要】:当今搜索引擎应用中亟待解决的一个问题是:如何针对用户的非确切性查询返回一个较为友好的查询结果,最大限度地提高用户的查询效率。传统搜索引擎应用如Google、百度、Bing等,由于仅仅采用经典的相关度排序算法显示所有查询结果,使得用户经常把时间浪费在过滤大量无关信息的工作上,查询效率较低,用户友好程度不高。因此,如何有效地对查询结果的标题和摘要信息聚类化,使之能返回一个友好的聚类查询结果,是当前的研究热点之一。 文本聚类的首要问题是如何将文本数据用数学形式表示。目前多数文本聚类算法采用向量空间模型(Vector Space Model,VSM)为基础,虽然简单,却容易引起“高维稀疏”问题,而且,对于同义词、多义词的处理也没有得到很好的解决,造成聚类的效率和准确程度降低,聚类效果不佳。本文针对中文的文本聚类技术,对文本搜索引擎中的聚类算法进行了研究,,使用一种基于后缀树与《知网》语义相似度计算的中文文本聚类算法,结合相应开发工具,实现了一个中文聚类搜索引擎(Chinese Clustering SearchEngine,CCSE)。该方法首先通过后缀树算法将搜索结果的逐条文本建立到一颗后缀树上,同时选择出那些包含名词(或动词、形容词等),并且最后是名词(或动词)结尾的短语;然后结合TF-IDF(Term Frequency Inverse Document Frequency,一种用于词频统计的权值计算方法)评分确定出所有后缀短语中描述性较强的短语作为候选聚类标签;再按照后缀树聚类算法(Suffix Tree Clustering,STC)根据已选定的候选聚类标签进行聚类合并;接着利用语义相似度计算方式对剩下的标签短语进行逐一计算比较,找出其中语义相似度较高的短语进行合并,只保留它们中得分最高的那个;最后,再使用聚类内部相似度(Intra-ClusterSimilarity,ICS)来保证聚类内部各摘要之间的高度相似性,淘汰掉一些与聚类中心向量的平均相似度较低的聚类,产生最终呈现给用户的聚类结果。其中,在语义相似度计算方面,本文利用《知网》工具选用了一种面向语义、可扩展的相似度计算方法。可以通过对未登录词进行适当的概念切分、自动生成语义,较好的解决了未登录词不能有效参与语义相似度计算的问题,增强了聚类效果;同时,由于整个算法是由确定理想聚类标签开始的,使得在聚类呈现阶段,该方法还可以保证聚类标签能够较好的反映出聚类内容,从而优化了查询的呈现效果。 论文首先对聚类算法在搜索引擎中的应用可行性进行了分析,对搜索引擎的结构、聚类模型、以及《知网》工具进行了介绍;然后对文本搜索引擎的总体框架、流程及体系结构进行了设计描述;接着对系统涉及的未登录词处理、短语相似度计算、聚类算法实现等关键技术做了详细的讨论,描述了CCSE系统所采用的聚类算法的设计思想和算法模型;最后论文对CCSE系统进行了测试,并对测试结果进行了分析,从而验证了系统设计的可行性和实用性。
[Abstract]:One of the most urgent problems in search engine application is how to query the user ' s non - deterministic query returns a more friendly query result to maximize user ' s query efficiency . Traditional search engine applications such as Google , Baidu , Bing , etc . make users often waste their time on the work of filtering a lot of irrelevant information , the query efficiency is low , and the user - friendliness is not high . Therefore , how to effectively clustering the header and summary information of the query result can be returned to a friendly clustering query result , which is one of the current research hotspots .
The first problem of text clustering is how to express text data in mathematical form . At present , most text clustering algorithms are based on Vector Space Model , which is easy to cause " high - dimensional sparse " problem . the method comprises the following steps : firstly , establishing a line - by - line text of a search result to a suffix tree through a suffix tree algorithm , and simultaneously selecting those phrases which contain a noun ( or a verb , adjective , etc . ) , and finally , the end of the noun ( or verb ) ;
鐒跺悗缁撳悎TF-IDF(Term Frequency Inverse Document Frequency,涓
本文编号:2072222
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2072222.html