分布式搜索引擎的模型综述
本文关键词:分布式搜索引擎的模型综述
【摘要】:本文综述了分布式搜索引擎的模型、结构和查询方法,并讨论了搜索引擎的评价指标。从搜索引擎的离线处理和在线处理讨论了搜索引擎的基本模块,在线查询过程速度决定了搜索引擎性能的关键因素;从分布式搜索引擎的模型上划分,搜索引擎包含四个主要子系统:网页爬虫系统、索引构建系统、检索系统和日志分析系统;倒排索引结构是以词典(dictionary)和倒排文件(inverted file)组成,分为文档编号递增排序和词频(或影响力)得分递减排序。然后讨论了当前搜索引擎典型的三类查询处理策略,并比较各自适应的条件。最后,综述评价搜索引擎的两个重要指标:查询效率和查询结果的质量,并列举定量评价公式。
【作者单位】: 哈尔滨工业大学计算机科学与技术学院;
【关键词】: 分布式索引 搜索引擎 倒排索引 查询处理
【基金】:国家自然科学基金(61173024)
【分类号】:TP391.3
【正文快照】: 0引言随着互联网业务的快速发展,搜索已成为人们学习和生活中的必需工具。面对日益激增的网络数据和复杂的用户需求,强大的搜索能力将成为推动互联网发展的关键要素。在工业界分布式引擎得到广泛应用,Google、Yahoo!、百度、阿里巴巴等巨大网络引擎公司,都在充分有效地利用分
【相似文献】
中国期刊全文数据库 前10条
1 杨建武,陈晓鸥;基于倒排索引的文本相似搜索[J];计算机工程;2005年05期
2 王冬;左万利;赫枫龄;彭涛;张长利;;一种增量倒排索引结构的设计与实现[J];吉林大学学报(理学版);2007年06期
3 林洁;李丹宁;吴晓;;基于用户的个性化综合倒排索引[J];杭州师范大学学报(自然科学版);2008年03期
4 宁可为;王炜;;基于倒排索引的答疑系统知识库文本研究[J];湖北广播电视大学学报;2010年06期
5 谭斌;丁莎;车念;徐力;聂清彬;谭钱茂;黄翔;;一种面向域的高效倒排索引结构及实时更新[J];四川大学学报(自然科学版);2011年02期
6 成毅;葛文;郑仲;陈科;;分布式倒排索引的地理信息服务搜索方法研究[J];测绘科学技术学报;2014年01期
7 贾崇,陆玉昌,鲁明羽;一种支持高效检索的即时更新倒排索引方法[J];计算机工程与应用;2003年29期
8 邝砾;邓水光;李莹;吴健;吴朝晖;;使用倒排索引优化面向组合的语义服务发现[J];软件学报;2007年08期
9 赵亮;;基于复合结构的高效索引在线更新策略[J];计算机工程;2008年02期
10 吴晓;李丹宁;吕爽;林洁;李丹;;基于综合倒排索引的个性化搜索引擎研究[J];微计算机信息;2008年27期
中国重要会议论文全文数据库 前4条
1 李栋;史晓东;;对搜索引擎中倒排索引更新策略的研究和改进[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 刘小珠;孙莎;曾承;彭智勇;;基于缓存的倒排索引机制研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 维尼拉·木沙江;吴俊森;吐尔根·依布拉音;;维吾尔文搜索引擎的倒排索引设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 孙宇;刘憬;张宇;刘挺;;基于分词和倒排索引的短文本检索技术的研究与实现[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 艾列富;基于内容的大规模图像索引与检索方法研究[D];华中科技大学;2014年
中国硕士学位论文全文数据库 前10条
1 刘兴宇;基于倒排索引的全文检索技术研究[D];华中科技大学;2004年
2 刘红雨;基于倒排索引的微博话题检测[D];哈尔滨工业大学;2013年
3 汪红敏;基于固态硬盘的倒排索引动态更新策略及其优化研究[D];华中科技大学;2013年
4 毛福林;倒排索引压缩算法研究[D];北京交通大学;2015年
5 林洁;基于综合倒排索引的个性化搜索技术研究[D];贵州大学;2008年
6 吴俊森;维哈柯多语种搜索引擎倒排索引模块的实现[D];新疆大学;2007年
7 陈雪帆;基于固态硬盘的倒排索引构建与维护策略研究[D];华中科技大学;2012年
8 董长春;基于Hadoop的倒排索引技术的研究[D];辽宁大学;2011年
9 潘胜一;基于倒排索引的压缩算法性能研究[D];杭州电子科技大学;2009年
10 代万能;倒排索引技术在Hadoop平台上的研究与实现[D];电子科技大学;2013年
,本文编号:797591
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/797591.html