在hadoop下运用Mapreduce构建文本索引
发布时间:2017-06-23 06:14
本文关键词:在hadoop下运用Mapreduce构建文本索引,由笔耕文化传播整理发布。
【摘要】:Hadoop是开源的一个分布式系统基础架构,借助Hadoop,可以在不了解分布式底层细节的情况下,开发分布式程序。文本索引在生产生活中有着广泛的应用,从搜索引擎的倒排索引到操作系统的指令都需要使用文本索引。在hadoop环境中构建文本索引,能够为搜索引擎和文档全文索引提供支持,并且同时兼顾了分布式系统的优点。在Hadoop环境中构建本索引的主要价值有:在分布式平台Hadoop建立倒排索引可以提高建立索引的速度,能够方便的存储大数据量,有着良好的扩展性以便实现在大规模系统中等优点。
【作者单位】: 西北工业大学;
【关键词】: Hadoop MapReduce 文本索引 倒排索引
【分类号】:TP391.3
【正文快照】: 一般来说,MapReduce会通过键—值对(key-value pair)的转换处理,将一个大型的计算问题转化成较小的子问题。在索引构建中,键—值对的形式就是(词项,文档名)。在分布式索引构建过程中,从词项到文档名的映射同样要分布式进行,因此分布式的索引构建方法要比单机上的索引构建方法
【参考文献】
中国硕士学位论文全文数据库 前3条
1 何荣波;MapReduce模型在Hadoop中的性能优化及改进[D];北京化工大学;2011年
2 赵会杰;中文全文检索系统中索引的研究[D];北京交通大学;2007年
3 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 李s,
本文编号:474119
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/474119.html