当前位置:主页 > 科技论文 > 搜索引擎论文 >

云搜索中的搜索结果聚类技术研究

发布时间:2018-02-11 12:47

  本文关键词: 搜索引擎 搜索结果聚类 模糊C均值 近邻传播算法 出处:《北京邮电大学》2013年硕士论文 论文类型:学位论文


【摘要】:随着互联网技术的不断发展,网络信息激增,搜索引擎逐渐成为用户查找网络信息的主要工具。但是,著名的搜索引擎如Google、百度等,为用户返回的结果均为线性列表的形式,毫无规律的罗列在一起。这些搜索结果往往数以万计,因此用户经常需要花费大量时间在这些杂乱的线性列表中来查找自己真正需要的结果。 所谓搜索结果聚类,是指将搜索引擎的返回结果按照不同的主题聚类,然后以类别的形式展现给用户。与传统搜索引擎以列表形式返回搜索结果相比,以类别的形式返回搜索结果更能方便用户快速查找定位信息,可以有效地帮助用户减少查找信息所需要的时间,提高用户获取信息的效率,从而提升搜索引擎的用户体验。 论文的工作主要包括以下几个方面:(1)研究搜索结果的向量表示形式,特征词项的权重计算和搜索结果间的相似性度量方法,通过实验验证找出适用于搜索结果在线聚类的最佳方法。(2)针对传统向量空间模型及相似性度量方法中忽略搜索结果中词项前后位关系以及词项词性等问题,提出一种针对搜索结果标题聚类的相似性度量方法。(3)针对模糊C均值算法需预先指定聚类数目的问题,结合近邻传播算法对这一问题进行改进,并使用Carrot2聚类平台获取大量搜索结果集进行新聚类方法的验证。
[Abstract]:With the continuous development of Internet technology and the proliferation of network information, search engines have gradually become the main tools for users to find information on the Internet. However, famous search engines, such as Google and Baidu, return results in the form of linear lists for users. These search results tend to be in the tens of thousands, so users often spend a lot of time in these messy linear lists to find the results they really need. The so-called search result clustering refers to clustering the returned results of search engines according to different topics and then presenting them to users in the form of categories. Compared with traditional search engines, they return search results in the form of lists. Returning search results in the form of categories can facilitate users to find location information quickly, can effectively help users to reduce the time required to find information, improve the efficiency of users to obtain information, and thus enhance the user experience of search engines. The main work of this paper includes the following aspects: 1) study the vector representation of search results, calculate the weight of feature items and measure the similarity between search results. The best method for online clustering of search results is found out by experiment. (2) aiming at the problems of ignoring the relationship between word items and word items in traditional vector space models and similarity measurement methods, and so on, this paper proposes a new method for online clustering of search results. In this paper, a similarity measure method for the clustering of search results is proposed. The fuzzy C-means algorithm needs to specify the number of clusters in advance, which is improved by combining with the nearest neighbor propagation algorithm. Carrot2 clustering platform is used to obtain a large number of search result sets to verify the new clustering method.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

【参考文献】

相关期刊论文 前10条

1 张倩;;依托智能搜索引擎构建档案信息检索系统的策略研究[J];档案与建设;2011年06期

2 阳小兰;钱程;赵海廷;;Web文本预处理技术探析[J];电脑知识与技术;2010年29期

3 高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期

4 张妍;许云峰;张立全;;基于云计算的中文分词研究[J];河北科技大学学报;2012年03期

5 毛嘉莉;;文本聚类中的特征降维方法研究[J];西华师范大学学报(自然科学版);2009年04期

6 管仁初;裴志利;时小虎;杨晨;梁艳春;;权吸引子传播算法及其在文本聚类中的应用[J];计算机研究与发展;2010年10期

7 何拥军,骆嘉伟,孙星明;应用链接分析的web搜索结果聚类[J];计算机工程与应用;2005年02期

8 于洪;杨大春;;基于扩展粗集模型的聚类方法研究[J];计算机工程与应用;2007年08期

9 李春芳;庞雅静;钱丽璞;高爱华;;半监督FCM聚类算法目标函数研究[J];计算机工程与应用;2009年14期

10 齐淼;张化祥;;改进的模糊C-均值聚类算法研究[J];计算机工程与应用;2009年20期

相关硕士学位论文 前7条

1 奚婷;搜索引擎结果的聚类系统研究[D];西南交通大学;2011年

2 俞文明;Web中文文本聚类研究[D];杭州电子科技大学;2009年

3 李丽丽;模糊C-均值聚类算法及其在图像分割中的应用[D];山东师范大学;2009年

4 陈平;中文聚类搜索引擎中主要技术的研究[D];吉林大学;2009年

5 张筱丹;基于向量空间模型的web文本自动摘要系统的研究[D];合肥工业大学;2009年

6 李静月;中文事件模式自动生成方法的研究和实现[D];苏州大学;2010年

7 王英帅;Web人名消歧方法的研究与实现[D];苏州大学;2010年



本文编号:1503094

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1503094.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户76f56***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com