在hadoop下运用Mapreduce构建文本索引

发布时间：2017-06-23 06:14

本文关键词：在hadoop下运用Mapreduce构建文本索引，由笔耕文化传播整理发布。

【摘要】：Hadoop是开源的一个分布式系统基础架构,借助Hadoop,可以在不了解分布式底层细节的情况下,开发分布式程序。文本索引在生产生活中有着广泛的应用,从搜索引擎的倒排索引到操作系统的指令都需要使用文本索引。在hadoop环境中构建文本索引,能够为搜索引擎和文档全文索引提供支持,并且同时兼顾了分布式系统的优点。在Hadoop环境中构建本索引的主要价值有:在分布式平台Hadoop建立倒排索引可以提高建立索引的速度,能够方便的存储大数据量,有着良好的扩展性以便实现在大规模系统中等优点。
【作者单位】：西北工业大学;
【关键词】： Hadoop MapReduce 文本索引 倒排索引
【分类号】：TP391.3
【正文快照】： 一般来说,MapReduce会通过键—值对(key-value pair)的转换处理,将一个大型的计算问题转化成较小的子问题。在索引构建中,键—值对的形式就是(词项,文档名)。在分布式索引构建过程中,从词项到文档名的映射同样要分布式进行,因此分布式的索引构建方法要比单机上的索引构建方法

【参考文献】

中国硕士学位论文全文数据库前3条

1 何荣波;MapReduce模型在Hadoop中的性能优化及改进[D];北京化工大学;2011年

2 赵会杰;中文全文检索系统中索引的研究[D];北京交通大学;2007年

3 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年

【共引文献】

中国期刊全文数据库前10条

1 李s，

本文编号：474119

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/474119.html

上一篇：基于Web数据挖掘的个性化学习系统研究
下一篇：在网络推广中百度关键词收费方式探索

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|