当前位置:主页 > 科技论文 > 计算机论文 >

基于Hadoop的OA论文存储及检索策略

发布时间:2017-11-07 20:34

  本文关键词:基于Hadoop的OA论文存储及检索策略


  更多相关文章: Hadoop 论文存储 文件索引 检索算法


【摘要】:随着OA(Open Access)期刊论文的海量式增长,OA期刊论文的访问以及存储问题成为了一个挑战,如何能够高效的存储以及定位到准确的论文已经成为了一个亟待解决的问题。分布式存储计算系统框架Hadoop已经被广泛应用到各个领域,但Hadoop的分布式存储框架HDFS不善长存储管理较小的文件。针对如何利用这种具有高扩展性,高容错性的分布式存储计算系统为OA提供一个底层的数据支持,本文提出了基于Hadoop的OA期刊论文存储策略,同时根据OA期刊论文数据的特殊性,对其检索排序算法进行了研究。 首先,本文在查阅相关文献的基础上,介绍了海量的OA期刊论文存储架构在Hadoop平台的背景与意义,同时对Hadoop这一分布式存储与计算框架进行了透彻地分析,阐述了基于Hadoop的小文件的存储与检索的研究现状。 其次,,针对Hadoop原生系统以及当前的小文件合并存储策略无法满足OA期刊论文的存储特点,本文提出了一种基于Hadoop的OA期刊论文的合并策略,将B+树索引机制应用到论文合并当中。同时建立了MoB+树索引机制,这种索引机制不但提高了文件检索速度,还减缓了Namenode命名空间的吃紧问题。 再次,根据OA期刊论文的元数据的本身性质,为了让排序结果满足不同标签域产生不同的权重值的要求,提出了一种优化的基于OA期刊论文的检索算法。同时利用Hadoop平台的分布式计算框架MapReduce实现了这一论文排序的优化算法。 最后,搭建Hadoop平台,对本文提出的方法进行验证。实验结果表明,本文所提供的方法有效提高了OA期刊论文在Hadoop平台上的读取效率,同时利用改进的Lucene的排序算法,有效地改善了论文排序中的评分问题。
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333

【参考文献】

中国期刊全文数据库 前9条

1 程维红;任胜利;;中国科技期刊开放存取出版现状[J];编辑学报;2007年03期

2 李晶皎,何敬禹,郑牧野,王爱侠;文件系统索引结构的研究[J];东北大学学报;2004年04期

3 陈剑;龚发根;;一种优化分布式文件系统的文件合并策略[J];计算机应用;2011年S2期

4 赵晓永;杨扬;孙莉莉;陈宇;;基于Hadoop的海量MP3文件存储架构[J];计算机应用;2012年06期

5 张春明;芮建武;何婷婷;;一种Hadoop小文件存储和读取的方法[J];计算机应用与软件;2012年11期

6 陆志峰,陈新建;B~+树索引文件结构的优化设计[J];计算机工程与设计;2000年03期

7 余思;桂小林;黄汝维;庄威;;一种提高云存储中小文件存储效率的方案[J];西安交通大学学报;2011年06期

8 李彬;;基于Hadoop框架的TF-IDF算法改进[J];微型机与应用;2012年07期

9 洪旭升;林世平;;基于MapFile的HDFS小文件存储效率问题[J];计算机系统应用;2012年11期

中国博士学位论文全文数据库 前1条

1 周金娉;开放存取期刊学术影响力研究[D];吉林大学;2013年



本文编号:1154019

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1154019.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a6e3f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com