基于多核技术的搜索结果聚类算法研究
发布时间:2018-03-13 09:45
本文选题:搜索结果聚类 切入点:网络聚类引擎 出处:《广西大学》2012年硕士论文 论文类型:学位论文
【摘要】:网络聚类引擎将聚类技术融入到搜索引擎中,对搜索结果进行聚类,以主题簇的形式返回给用户,用户只需在少量的主题簇中筛选出感兴趣的主题,继而再深入查看内容是否有价值,这样可以极大地减轻用户的查找任务,是当前搜索引擎的研究热点。影响网络聚类引擎的用户体验有两点:一是主题簇的最终显示方式,二是响应用户请求的效率。本文对上述问题进行了研究,具体包括: (1)网络聚类引擎呈现主题簇的形式主要是文件夹树或其他的图形视图。只有客观地评价一个簇的重要性,才能使簇的排列合乎用户的期望。基于Lingo算法,提出了一种改进计算簇分值的方法,不仅考虑簇标签的分值和簇内文档的数量,还利用文档在搜索结果中的原有排名和在簇中的分值。实验结果表明,改进后的簇分值可以客观反映簇的相关性和权威性。(2)聚类算法是比较耗时的过程,需要提高算法的效率以满足用户对在线聚类的时间容忍度。随着多核处理器的快速发展和广为使用,针对Lingo算法的时间效率问题,在提出的Lingo改进算法的基础上,运用多线程技术,使用并行程序设计来实现其并行化,以利用多核的资源优势,从而提高改进算法的性能。实验表明所设计的并行Lingo算法有较好的性能。
[Abstract]:Network clustering engine clustering technology into the search engine, cluster search results and return to the user in the form of topic clusters, users only need to select a topic of interest in the theme of small clusters, whether there is a value then look no further, this can greatly reduce the user search task is current the search engine research focus. The influence of the user experience of Web Clustering engines have two points: one is the presentation of clusters is two, the efficiency of responding to user request. This paper made a research on the above problems, including:
(1) Web Clustering engines display cluster is mainly in the form of the folder tree or other graphical view. Only the objective evaluation of the importance of a cluster, cluster to make arrangement in line with the user's expectations. Based on the Lingo algorithm, an improved method is proposed for calculating the cluster score, not only consider the number of cluster label scores and cluster documents, also use the document search results in the original ranking and in cluster scores. The experimental results show that the improved cluster score can objectively reflect the relevance and authority of clusters. (2) clustering algorithm is a time-consuming process, to improve the efficiency of the algorithm to meet the needs of users of online time clustering tolerance. With the rapid development of multi-core processor and is widely used in time, the efficiency of Lingo algorithm, an improved algorithm based on the Lingo, the use of multi threading technology, parallel program design To achieve its parallelization, the performance of the improved algorithm is improved by using the multi core resource advantage. The experiment shows that the designed parallel Lingo algorithm has good performance.
【学位授予单位】:广西大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.13
【参考文献】
相关期刊论文 前6条
1 邵峰晶,张斌,于忠清;多阈值BIRCH聚类算法及其应用[J];计算机工程与应用;2004年12期
2 龙真真;张策;刘飞裔;张正文;;一种改进的Chameleon算法[J];计算机工程;2009年20期
3 行小帅,潘进,焦李成;基于免疫规划的K-means聚类算法[J];计算机学报;2003年05期
4 马帅,王腾蛟,唐世渭,杨冬青,高军;一种基于参考点和密度的快速聚类算法[J];软件学报;2003年06期
5 雷小锋;谢昆青;林帆;夏征义;;一种基于K-Means局部最优性的高效聚类算法[J];软件学报;2008年07期
6 田森平;吴文亮;;自动获取k-means聚类参数k值的算法[J];计算机工程与设计;2011年01期
相关硕士学位论文 前1条
1 张晓卫;Web全文信息检索系统的研究与实现[D];苏州大学;2006年
,本文编号:1605841
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1605841.html