当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于查询相关性分析的检索结果聚类算法

发布时间:2018-06-12 02:02

  本文选题:检索结果聚类 + 簇描述短语 ; 参考:《小型微型计算机系统》2011年10期


【摘要】:随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐心的浏览.为了进一步提高用户获取信息的效率和质量,减轻用户的劳动强度,研究者提出了对检索结果进行再挖掘、再组织的问题,聚类就是其中的研究热点之一.本文在分析现有检索结果聚类算法存在的问题的基础上,提出了基于查询相关性分析的标签驱动聚类算法,该算法通过分析短语与查询项的关联程度,提取作为候选簇标签的短语,然后根据这些标签确定网页摘要隶属的候选簇,最后基于对候选簇和标签的评价进行簇筛选和归并,得到聚类结果及每个簇的标签.在相同环境下进行的对比实验表明,所提出的算法优于相关工作,而且需要更少的信息资源支持.
[Abstract]:With the popularity of the Internet and the rapid growth of the number of web pages, search engines have become the first choice to obtain information from the Internet. However, when the mainstream search engines respond to the requests submitted by users, they often display the results in the form of a long one-dimensional list. In order to find the information they need, the users must browse the result list patiently. In order to further improve the efficiency and quality of users' access to information and reduce the labor intensity of users, researchers put forward the problem of remining and reorganizing retrieval results, among which clustering is one of the research hotspots. On the basis of analyzing the problems existing in the existing retrieval result clustering algorithms, this paper proposes a tag-driven clustering algorithm based on query correlation analysis, which analyzes the correlation between phrases and query items. The phrases used as candidate cluster tags are extracted, and then the candidate clusters are determined according to these tags. Finally, the clustering results and the labels of each cluster are obtained by clustering and merging based on the evaluation of candidate clusters and tags. The comparison experiments in the same environment show that the proposed algorithm is superior to the related work and needs less information resources.
【作者单位】: 四川大学计算机学院;
【分类号】:G353.1

【参考文献】

相关期刊论文 前10条

1 张辉;谢科;庞斌;吴辉;;一种基于关键特征的搜索引擎结果聚类算法[J];北京航空航天大学学报;2007年06期

2 陈毅恒;秦兵;宋凡;刘挺;李生;;基于ontology抽取优化初始选择的检索结果聚类[J];电子学报;2008年S1期

3 李红梅;丁振国;周水生;周利华;;基于概念分组的Web搜索结果聚类算法[J];华南理工大学学报(自然科学版);2009年01期

4 张刚;刘悦;郭嘉丰;程学旗;;一种层次化的检索结果聚类方法[J];计算机研究与发展;2008年03期

5 张健沛,刘洋,杨静,代坤;搜索引擎结果聚类算法研究[J];计算机工程;2004年05期

6 陈永超;刘贵全;;一种基于命名实体的搜索结果聚类算法[J];计算机工程;2009年07期

7 丁振国;孟星;;基于K-center和信息增益的Web搜索结果聚类方法[J];计算机应用研究;2008年10期

8 骆雄武;万小军;杨建武;吴於茜;;基于后缀树的Web检索结果聚类标签生成方法[J];中文信息学报;2009年02期

9 张云;冯博琴;;利用标签的层次化搜索结果聚类方法[J];西安交通大学学报;2009年04期

10 黄健斌;姬红兵;;基于模糊概念格的Web搜索结果聚类算法[J];西安电子科技大学学报;2005年06期

【共引文献】

相关期刊论文 前10条

1 贾荣飞;金茂忠;王晓博;;基于用户查询日志的查询聚类[J];北京航空航天大学学报;2010年04期

2 于洪;谌强;;一种结合K-Means的层次化的搜索结果聚类方法[J];重庆邮电大学学报(自然科学版);2010年03期

3 刘文婷;滕奇志;;后缀树聚类在专用搜索引擎中的应用研究与改进[J];成都信息工程学院学报;2010年03期

4 夏斌;徐彬;;基于超链接信息的搜索引擎检索结果聚类方法研究[J];电脑开发与应用;2007年05期

5 张伟哲;王佰玲;何慧;谭卓鹏;;基于异质网络的意见领袖社区发现[J];电子学报;2012年10期

6 陈毅恒;秦兵;刘挺;王平;李生;;基于潜在语义索引和自组织映射网的检索结果聚类方法[J];计算机研究与发展;2009年07期

7 李营;王儒敬;王大为;魏保子;;基于用户兴趣的搜索结果动态聚类算法[J];计算机工程与应用;2008年04期

8 靳宇倡;秦启文;安俊秀;;网络群体心理趋势智能分析模型研究[J];计算机科学;2010年06期

9 安俊秀;;基于服务器集群的云检索系统的研究与示范[J];计算机科学;2010年07期

10 刘德山;;一种改进的基于后缀树模型搜索结果聚类算法[J];计算机科学;2011年11期

相关会议论文 前2条

1 诸平;李哲峰;;方正e-Book制作技巧优化方案探索[A];中国高校学出版(Ⅱ)——中国高等学校自然科学学报研究会第13次年会论文集[C];2009年

2 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年

相关博士学位论文 前5条

1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

2 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年

3 周世兵;聚类分析中的最佳聚类数确定方法研究及应用[D];江南大学;2011年

4 李红梅;智能元搜索引擎关键技术研究[D];西安电子科技大学;2009年

5 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年

相关硕士学位论文 前10条

1 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年

2 吴代文;基于Lucene的二次全文检索系统设计与实现[D];西安电子科技大学;2009年

3 徐德;关于互联网文本数据挖掘的一些关键技术研究[D];电子科技大学;2011年

4 龚凌晖;中文命名实体识别与歧义消解研究[D];复旦大学;2011年

5 轩春青;基于客户反馈的FTP搜索引擎的研究与设计[D];郑州大学;2011年

6 邹浩;基于B/S+C/S结构的高校图书管理系统[D];电子科技大学;2011年

7 俞文明;Web中文文本聚类研究[D];杭州电子科技大学;2009年

8 刘龙海;基于成对约束的半监督文本聚类算法研究[D];重庆大学;2011年

9 刘文静;基于标签词抽取的搜索结果聚类研究[D];北京邮电大学;2012年

10 张玉新;面向专题的信息搜索与过滤技术研究[D];国防科学技术大学;2005年

【二级参考文献】

相关期刊论文 前4条

1 姚莉秀,杨杰,叶晨洲,陈念贻;用于特征筛选的最近邻(KNN)法[J];计算机与应用化学;2001年02期

2 王志梅,张俊林,李秋山;Web检索结果快速聚类方法的研究与实现[J];计算机工程与设计;2004年12期

3 耿玉良,陈家琪,王咏梅;中文Web检索中聚类算法的改进[J];计算机工程与设计;2005年10期

4 张云;冯博琴;麻首强;刘连梦;;蚁群-遗传融合的文本聚类算法[J];西安交通大学学报;2007年10期

【相似文献】

相关期刊论文 前10条

1 李晓莉,陈雪;基于模式识别聚类思想的PON ODN规划设计[J];光通信技术;2003年12期

2 张彩虹,王春才,颜雁;医保决策支持系统中的聚类算法[J];长春理工大学学报;2004年04期

3 史兴键,李伟华,王文奇;基于优化聚类算法的安全审计模型[J];计算机工程与应用;2005年17期

4 周如旗;个性化数据聚类的属性坐标分析法[J];电脑与信息技术;2005年03期

5 潘磊,吴小俊,尤媛媛;基于聚类的视频镜头分割和关键帧提取[J];红外与激光工程;2005年03期

6 张永梅,韩焱,张建华;一种有效聚类算法的研究和实现[J];计算机应用;2005年07期

7 叶菲,罗景青;一种基于BFSN聚类的多参数综合分选算法[J];雷达与对抗;2005年02期

8 严馨,周丽华,陈克平,徐广义;一种改进的带障碍的基于密度和网格的聚类算法[J];计算机应用;2005年08期

9 吕昱;程代杰;;基于SOM的市场细分研究[J];计算机科学;2005年12期

10 何明;冯博琴;马兆丰;傅向华;;一种基于高斯混合模型的无监督粗糙聚类方法[J];哈尔滨工业大学学报;2006年02期

相关会议论文 前10条

1 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

2 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年

3 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年

4 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年

5 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年

6 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

7 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年

8 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

9 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

10 余琳;邓玲;;常见聚类算法的比较以及DSS系统中的应用[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年

相关重要报纸文章 前3条

1 ;视频数据中挖“宝”[N];计算机世界;2002年

2 本报记者 赵凤华 通讯员 戴世勇 陶春明;本科生登上全国学术会议讲坛[N];科技日报;2008年

3 本报记者 于翔;多元管理防范金融风险[N];网络世界;2010年

相关博士学位论文 前10条

1 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年

2 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年

3 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年

4 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年

5 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年

6 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年

7 孙鹏岗;聚类算法研究及其在网络模块性分析中的应用[D];西安电子科技大学;2011年

8 梅娟;复杂生物网络聚类分析方法[D];江南大学;2010年

9 潘鸿飞;形状特征描述及聚类算法研究[D];安徽大学;2011年

10 余卫宇;几种图像结构语义模型和图像[D];华南理工大学;2005年

相关硕士学位论文 前10条

1 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年

2 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年

3 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年

4 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年

5 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年

6 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年

7 王帆;基于优化目标可调控的免疫聚类算法的研究[D];太原理工大学;2010年

8 李长进;基于蚁群算法的混合聚类算法研究[D];中国石油大学;2010年

9 武彩丽;基于规范切和分水岭的聚类算法研究[D];西安电子科技大学;2010年

10 张立;基于新闻评论数据的K-means聚类算法的研究[D];太原理工大学;2010年



本文编号:2007751

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2007751.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户358e9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com