当前位置:主页 > 科技论文 > 搜索引擎论文 >

倒排索引技术在Hadoop平台上的研究与实现

发布时间:2019-11-02 04:36
【摘要】:随着互联网的发展,搜索引擎要处理的数据量越来越大,对搜索引擎的性能要求越来越高。为了提高信息检索效率,信息检索系统一般都采用倒排索引技术。倒排索引技术是搜索引擎系统的核心组成部分,它的结构设计、存储方式、查询操作和动态更新算法的好坏对信息检索的效率有很大的影响。同样为了提高信息检索的效率,搜索引擎系统中引入了分布式的计算平台,以实现并行计算。Hadoop是一种常用的开源分布式处理平台,已经被应用到许多系统,并且取得了很好的效果。通过Hadoop平台,能比较方便的进行分布式编程,让计算并行化,从而提高系统响应效率。因此,在Hadoop平台上实现倒排索引技术对搜索引擎效率的提高有重要意义。 本文利用Hadoop分布式计算平台,使用HDFS文件系统和Map-Reduce的原理,设计并实现了一种基于分布式系统Hadoop的倒排索引结构。这种结构的倒排索引,,能够在一定程度上节省磁盘存储空间,提高信息检索效率。 本文首先研究分析了Hadoop平台的系统架构、主要组成部分以及其中的两个关键技术——Map-Reduce编程模型和HDFS文件系统的原理;研究了Hadoop中Map-Reduce作业的提交和任务的运行流程,分析了整个过程中数据流的走向,以及基于Hadoop的应用程序设计原理与方法;在分析传统的倒排索引技术实现方案及相关算法后,验证了在Hadoop平台下实现的可能性倒排索引的可能性。 在此基础上,在Hadoop平台下设计了一种倒排索引结构,该结构主要由主索引、段索引、删除索引和词典库等部分组成。然后详细介绍了该结构的各组成部分。设计了基于词频高低和词频排名的倒排文件存储策略,以及倒排项中数字信息的压缩编码方法——综合编码压缩法;设计了倒排文件的压缩格式的选择。针对这种倒排索引的结构,设计了Map-Reduce方式的倒排索引构建算法、基于段索引的倒排索引更新算法、基于删除索引的倒排索引删除算法以及基于词典库的倒排索引查询算法。最后在Hadoop分布式集群环境编程实现了以上结构的倒排索引和相关操作算法,并且进行了测试和验证。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

【参考文献】

相关期刊论文 前10条

1 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期

2 王岩;;搜索引擎中网络爬虫技术的发展[J];电信快报;2008年10期

3 王峰;雷葆华;;Hadoop分布式文件系统的模型分析[J];电信科学;2010年12期

4 胡双双;秦杰;;搜索引擎技术及其发展趋势[J];福建电脑;2008年06期

5 刘世涛;;简析搜索引擎中网络爬虫的搜索策略[J];阜阳师范学院学报(自然科学版);2006年03期

6 辛大欣;刘飞;;Hadoop集群性能优化技术研究[J];电脑知识与技术;2011年22期

7 王峰;;Hadoop集群作业的调度算法[J];程序员;2009年12期

8 贾崇,陆玉昌,鲁明羽;一种支持高效检索的即时更新倒排索引方法[J];计算机工程与应用;2003年29期

9 吴恒山,刘兴宇,左琼;一种基于可扩展散列表的倒排索引更新策略[J];计算机工程;2004年08期

10 李震;杜中军;;云计算环境下的改进型Map-Reduce模型[J];计算机工程;2012年11期

相关会议论文 前1条

1 丁辉;张大华;罗志明;;基于Hadoop的海量数据处理平台研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年

相关硕士学位论文 前10条

1 江柳;HDFS下小文件存储优化相关技术研究[D];北京邮电大学;2011年

2 谢桂兰;基于Eucalyptus云平台的Hadoop集群研究[D];成都理工大学;2011年

3 刘兴宇;基于倒排索引的全文检索技术研究[D];华中科技大学;2004年

4 苏旋;分布式网络爬虫技术的研究与实现[D];哈尔滨工业大学;2006年

5 张旭;一个基于词典与统计的中文分词算法[D];电子科技大学;2007年

6 付志超;基于Map/Reduce的分布式智能搜索引擎框架研究[D];武汉理工大学;2008年

7 黄晓云;基于HDFS的云存储服务系统研究[D];大连海事大学;2010年

8 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

9 邱荣太;基于Hadoop平台的Map-Reduce应用研究[D];河南理工大学;2009年

10 蔡睿诚;基于HDFS的小文件处理与相关MapReduce计算模型性能的优化与改进[D];吉林大学;2012年



本文编号:2554296

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2554296.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d8dfa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com