当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于权重标准化SimRank方法的查询扩展技术研究

发布时间:2018-08-05 11:29
【摘要】:查询扩展是信息检索中的一项重要技术。传统的局部分析查询扩展方法利用伪相关文档作为候选词集合,然而部分伪相关文档并不具有很高的相关性。该文利用真实的搜索引擎查询日志,建立了查询点击图,经过多次图结构的转化得到能够反映词之间关联程度的词项关系图,并在图结构的相似度算法SimRank的基础上,提出了一种基于权重标准化的改进SimRank方法,该方法利用词项关系图中词项的全局和间接关系,能够有效挖掘与原始查询相关联的扩展词。同时,为降低SimRank算法的计算复杂度,该文采用了剪枝等策略进行优化,使得计算效率有大幅提高。在TREC标准数据集上的实验表明,该文的方法可以有效地选择相关扩展词。MAP指标较局部分析查询扩展方法提高了1.81%,在P@10和P@20指标评价中效果分别提高了5.44%和3.73%。
[Abstract]:Query extension is an important technology in information retrieval. The traditional local analysis query expansion method uses pseudo-correlation documents as candidate word sets, but partial pseudo-correlation documents are not highly correlated. In this paper, the query click graph is established by using the real search engine query log, and the word item relation graph which can reflect the degree of correlation between words is obtained through the transformation of the structure of multiple graphs, and based on the similarity algorithm SimRank of the graph structure. An improved SimRank method based on weight standardization is proposed. By using the global and indirect relationships of the word items in the word term relational graph, the extended words associated with the original query can be effectively mined. At the same time, in order to reduce the computational complexity of the SimRank algorithm, the pruning strategy is used to optimize the algorithm, which greatly improves the computational efficiency. Experiments on the TREC standard data set show that the proposed method can effectively select the relative extension word .MAP index, which is 1.81% higher than that of the local analysis query extension method, and the effect is 5.44% and 3.73% higher in the evaluation of P10 and Papp20 indexes, respectively.
【作者单位】: 大连理工大学信息检索研究室;
【基金】:国家自然科学基金资助项目(60673039,60973068) 国家社科基金资助项目(08BTQ025) 国家863高科技计划资助项目(2006AA01Z151) 教育部留学回国人员科研启动基金 高等学校博士学科点专项科研基金资助项目(20090041110002)
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 李文骏;崔志明;;基于搜索引擎的Deep Web数据源发现技术[J];计算机技术与发展;2008年08期

2 李莉;高庆狮;;一种基于语义单元的查询扩展方法[J];计算机科学;2008年02期

3 裴飞;洪宇;孙常龙;姚建民;朱巧明;;基于Web的查询扩展[J];电脑知识与技术;2011年06期

4 马云龙;林原;林鸿飞;;基于权重标准化SimRank方法的查询扩展技术研究[J];中文信息学报;2011年01期

5 蒋辉;阳小华;;基于文档与搜索结果上下文的查询扩展方法[J];计算机应用;2009年03期

6 牟力科;张蕾;张晓孪;;基于概念图的用户兴趣查询扩展模型的研究[J];计算机工程与应用;2008年06期

7 熊桂喜;王开锋;;基于语义的查询扩展研究[J];微计算机信息;2008年30期

8 曹蓓蓓;信息检索技术的设计探讨[J];河北建筑科技学院学报;2005年03期

9 李小琳;陆汝占;;基于日志挖掘的查询概念图扩展[J];计算机应用与软件;2010年03期

10 黄晓冬;Invisible Web研究综述[J];情报科学;2004年09期

相关会议论文 前10条

1 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

2 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

3 罗伟;李陶深;;一种基于本体的个性化搜索引擎模型[A];广西计算机学会2006年年会论文集[C];2006年

4 姚建民;孙俊;;基于搜索引擎查询词分类扩展的译文挖掘[A];苏州市自然科学优秀学术论文汇编(2008-2009)[C];2010年

5 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

6 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

7 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

8 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年

9 陈磊;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

10 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年

相关重要报纸文章 前10条

1 博文邋译;你的隐私 搜索引擎知道[N];计算机世界;2007年

2 杨洁;搜索引擎营销市场生变[N];中国计算机报;2007年

3 刘文君;搜索引擎也在寻求创新[N];大众科技报;2007年

4 ;法国挑战谷歌推出卫星地图搜索引擎[N];人民日报;2006年

5 MirrorCity.net技术总监 姚浩;让搜索引擎回归最初梦想[N];中国文化报;2008年

6 本报记者 操秀英;国双科技以技术加服务赢得市场[N];科技日报;2009年

7 赵敏;“鱼群理论”破解搜索营销谜局[N];中国企业报;2007年

8 本报记者 樊哲高;搜索引擎三国纷争 中文市场两军对垒[N];中国电子报;2009年

9 EndTo;优化Meta讨好搜索引擎[N];电脑报;2009年

10 本报记者 马文方;Yebol:从思维科学导出搜索引擎[N];中国计算机报;2010年

相关博士学位论文 前10条

1 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年

2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

8 王树梅;信息检索相关技术研究[D];南京理工大学;2007年

9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

相关硕士学位论文 前10条

1 卢苇;基于双语翻译搜索引擎的智能用户接口的研究[D];武汉理工大学;2009年

2 王倩;基于概念格的个性化搜索引擎查询扩展研究[D];北京邮电大学;2008年

3 张柯;基于概念格的语义相关度计算及应用[D];河南大学;2007年

4 杨光伟;基于Lucene的个性化搜索引擎的研究与实现[D];内蒙古大学;2009年

5 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年

6 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年

7 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

8 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年

9 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年

10 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年



本文编号:2165660

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2165660.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4eb5f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com