当前位置:主页 > 科技论文 > 计算机论文 >

基于Hadoop的OA论文资源存储方法研究

发布时间:2017-08-08 14:06

  本文关键词:基于Hadoop的OA论文资源存储方法研究


  更多相关文章: OA论文 HDFS MapReduce 小文件存储 分布式聚类 预取机制


【摘要】:随着Internet上开放存取(Open Access,OA)论文数量的迅猛增加,传统的存储技术已经不能满足这些海量的OA论文资源,如何对其高效的处理和存储成为一个亟待解决的问题。Hadoop云计算架构作为当前研究的热点提供了一个分布式文件系统HDFS,它具有很好的扩展性与容错性,并且可以部署在低廉的硬件上,从而得到广泛应用。但是HDFS不善于处理海量的小文件,在存储时存在着内存占用高与读取速率低的问题。本文在综合分析目前国内外研究现状的基础上,借助OA论文资源的特性,针对HDFS在存储小文件时处理效率低下的问题进行了深入地研究。 首先,介绍了Hadoop的两个核心组件HDFS文件系统与MapReduce编程模型的基本知识,包括整体架构,工作机制,,以及文件读写的流程。 其次,为了实现本文的预取方法,提出了一种基于MapReduce的分布式特征向量构建算法以及分布式聚类算法。该算法首先根据OA论文资源的特点将其向量化,接着这对这些特征向量进行聚类,并描述了该聚类在Hadoop上并行的具体步骤。 再次,基于分布式聚类结果并针对海量OA论文资源在HDFS中的存储问题,提出了一个存储检索预取方法。该方法首先对存储结构进行规划,接着提出基于Lucene的分布式建立索引算法,然后根据用户读取OA论文资源的习惯设计预取机制。 最后,在不同规模的数据集及不同的读取数量上,将本文提出的存储方法与HDFS现有的存储方法进行实验对比与分析。
【关键词】:OA论文 HDFS MapReduce 小文件存储 分布式聚类 预取机制
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 绪论10-15
  • 1.1 研究背景及意义10-11
  • 1.2 国内外研究现状11-13
  • 1.3 本文的主要研究内容13
  • 1.4 本文的组织结构13-15
  • 第2章 相关理论知识与技术15-23
  • 2.1 HDFS文件系统15-19
  • 2.1.1 HDFS整体架构15-16
  • 2.1.2 HDFS作机制16-17
  • 2.1.3 写入与读取17-19
  • 2.2 MapReduce编程模型19-22
  • 2.2.1 MapReduce基本原理19-21
  • 2.2.2 MapReduce作机制21-22
  • 2.3 本章小结22-23
  • 第3章 面向OA论文资源的分布式聚类算法23-36
  • 3.1 符号说明以及相关定义23-25
  • 3.2 基于MapReduce的特征向量提取算法25-30
  • 3.2.1 分布式分词算法25-26
  • 3.2.2 基于文档频的分布式特征词选择算法26-28
  • 3.2.3 基于TF-IDF的分布式特征向量构建算法28-30
  • 3.3 基于Canopy的K-means聚类算法30-35
  • 3.3.1 Canopy聚类算法30-31
  • 3.3.2 算法的主要思想31-32
  • 3.3.3 算法的并行实现32-35
  • 3.4 本章小结35-36
  • 第4章 面向OA论文资源的存储检索预取方法36-44
  • 4.1 基于MapFile的OA论文资源存储结构36-37
  • 4.1.1 MapFile数据结构36-37
  • 4.1.2 存储结构37
  • 4.2 基于Lucene的OA论文资源检索方法37-41
  • 4.2.1 OA论文资源检索机制38-39
  • 4.2.2 分布式建立索引39-41
  • 4.3 面向OA论文资源的预取方法41-43
  • 4.4 本章小结43-44
  • 第5章 实验验证与分析44-52
  • 5.1 实验环境和实验数据44-45
  • 5.1.1 实验环境44-45
  • 5.1.2 实验数据45
  • 5.2 实验评价标准45-47
  • 5.3 实验及结果分析47-51
  • 5.3.1 对比算法简介47
  • 5.3.2 内存占用对比47-49
  • 5.3.3 读取速率对比49-51
  • 5.3.4 结果分析51
  • 5.4 本章小结51-52
  • 结论52-54
  • 参考文献54-58
  • 攻读硕士学位期间承担的科研任务与主要成果58-59
  • 致谢59-60
  • 作者简介60

【参考文献】

中国期刊全文数据库 前10条

1 程维红;任胜利;;中国科技期刊开放存取出版现状[J];编辑学报;2007年03期

2 班志杰;古志民;金瑜;;Web预取技术综述[J];计算机研究与发展;2009年02期

3 赵晓永;杨扬;孙莉莉;陈宇;;基于Hadoop的海量MP3文件存储架构[J];计算机应用;2012年06期

4 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期

5 鞠玉梅;体裁分析与英汉学术论文摘要语篇[J];外语教学;2004年02期

6 李武;杨屹东;;开放存取期刊出版的发展现状及其影响分析[J];图书情报工作;2006年02期

7 王云才;;国内外“开放存取”研究综述[J];图书情报知识;2005年06期

8 余思;桂小林;黄汝维;庄威;;一种提高云存储中小文件存储效率的方案[J];西安交通大学学报;2011年06期

9 刘小俊;徐正全;潘少明;;一种结合RDBMS和Hadoop的海量小文件存储方法[J];武汉大学学报(信息科学版);2013年01期

10 张海;马建红;;基于HDFS的小文件存储与读取优化策略[J];计算机系统应用;2014年05期



本文编号:640342

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/640342.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f49da***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com