当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Map/Reduce框架实现的倒排索引文本检索

发布时间:2021-03-07 06:24
  倒排索引在搜索引擎检索系统中有很广泛的应用前景。而随着互联网各种数据的不断聚集,单处理器早已无法满足对数据的处理。文章介绍了基于Map/Reduce框架下通过多节点实现多个文本的倒排索引技术,详细阐述了在多处理器下倒排索引实现的原理。并根据目前倒排索引在各大搜索引擎的应用状况,结合在试验中获得的相关数据,进一步探索了在Map/Reduce框架下倒排索引文本的有效性和效率。 

【文章来源】:智能城市. 2019,5(11)

【文章页数】:3 页

【部分图文】:

基于Map/Reduce框架实现的倒排索引文本检索


map过程输入/输出通过map函数处理后的输出的数据中,键值<单词+

过程输入,处理阶段,词频,单词


刀?偏移量,内容>作为map的输入。map函数的关键是对key和value的进行设置以适应Map/Reduce框架,从而得到正确的结果。对于文件inverted1.txt与inverted2.txt,搜索关键词的详细设计过程如图3所示。设计过程中首先需要对整个文档进行切分,得到单词、所属的文档URL及词频,文中设计key=单词+URL,value=词频。即map的输出为<单词+URL,词频>。图3map过程输入/输出通过map函数处理后的输出的数据中,键值<单词+URL,词频>做为combine过程的输入,该过程需要将同一文档中Key值相同的value值进行累加,如图4所示。图4Combine过程输入/输出在最后reduce处理阶段,是对最终结果进行合并的阶段,需要对不同文档中相同的key值进行处理,该过程根据倒排索引需要的格式进行输出,输出结果为<单词,URL+词频>,如图5所示。<d1;wd1,t,loc1,loc2…locd1,ft><d2;wd2…>…<dnt…>

过程输入,文本检索,倒排索引,集中式


SA.IEEE.2010.[2]刘鹏,于全,杨震于.云计算大数据处理[J].北京:人民邮电出版社,2015:35-41.[3]刘立卿.搜索引擎:信息检索实践[J].计算机教育,2010,118(10):65.[4]严浪.倒排文件技术设计[J].计算机与数字工程,2011,39(3):168-170.[5]吴文娟,车明.搜索引擎倒排索引技术的改进[J].微处理机,2006,27(6):83-85.[6]谢桂兰,罗省贤.基于HadoopMap/Reduce模型的应用研究[J].微型机与应用,2010(8):4-7.作者简介:马飞,硕士,研究方向为并行分布处理与大数据云计算技术、机器学习、计算机视觉。图5Reduce过程输入/输出3试验结果与分析试验中,对比了利用Hadoop集群与集中式搜索两种方式实现倒排索引文本检索的耗时,同时也比较了利用不同数目主机搭建的Hadoop集群实现的倒排索引文本检索速度,试验中,设定主题为“找工作”,分别爬取15、50、100、300、500个网页,以“工程师”为关键字检索与该职位相关的招聘信息,数据采集如表1所示。表1不同方式实现的倒排索引文本检索速度表图6对比了利用Hadoop集群实现的Map/Reduce倒排索引文本平均检索速度与集中式文本检索速度,试验结果表明,当抓取网页数量达到70个时,通过Hadoop集群与集中式实现的倒排索引耗时均接近75000ms。当爬取的网页数量为15个时,利用集中式实现的倒排文本索引检索耗时低于Hadoop集群的耗时,而平均检索速度则优于分布式集群。而随着抓取网页的数量增长到500个时,利用集中式实现的文本检索耗时呈比例增长,而通过Hadoop集群进行检索速度明显优于集中式实现的文本检索,造成该现象的主要原因在于集群启动时需要一定的时间,在对网页数据进行分片、复制及不同主机间通信时会消耗大量时间。随着集群所需要的准备工作完毕,利用集群实现?

【参考文献】:
期刊论文
[1]倒排文件技术设计[J]. 严浪.  计算机与数字工程. 2011(03)
[2]搜索引擎:信息检索实践[J]. 刘立卿.  计算机教育. 2010(10)
[3]基于Hadoop MapReduce模型的应用研究[J]. 谢桂兰,罗省贤.  微型机与应用. 2010(08)
[4]搜索引擎倒排索引技术的改进[J]. 吴文娟,车明.  微处理机. 2006(06)



本文编号:3068558

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3068558.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户704dd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com