当前位置:主页 > 科技论文 > 搜索引擎论文 >

在hadoop下运用Mapreduce构建文本索引

发布时间:2017-06-23 06:14

  本文关键词:在hadoop下运用Mapreduce构建文本索引,由笔耕文化传播整理发布。


【摘要】:Hadoop是开源的一个分布式系统基础架构,借助Hadoop,可以在不了解分布式底层细节的情况下,开发分布式程序。文本索引在生产生活中有着广泛的应用,从搜索引擎的倒排索引到操作系统的指令都需要使用文本索引。在hadoop环境中构建文本索引,能够为搜索引擎和文档全文索引提供支持,并且同时兼顾了分布式系统的优点。在Hadoop环境中构建本索引的主要价值有:在分布式平台Hadoop建立倒排索引可以提高建立索引的速度,能够方便的存储大数据量,有着良好的扩展性以便实现在大规模系统中等优点。
【作者单位】: 西北工业大学;
【关键词】Hadoop MapReduce 文本索引 倒排索引
【分类号】:TP391.3
【正文快照】: 一般来说,MapReduce会通过键—值对(key-value pair)的转换处理,将一个大型的计算问题转化成较小的子问题。在索引构建中,键—值对的形式就是(词项,文档名)。在分布式索引构建过程中,从词项到文档名的映射同样要分布式进行,因此分布式的索引构建方法要比单机上的索引构建方法

【参考文献】

中国硕士学位论文全文数据库 前3条

1 何荣波;MapReduce模型在Hadoop中的性能优化及改进[D];北京化工大学;2011年

2 赵会杰;中文全文检索系统中索引的研究[D];北京交通大学;2007年

3 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年

【共引文献】

中国期刊全文数据库 前10条

1 李s,

本文编号:474119


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/474119.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c7cc9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com