基于Hadoop的OA论文资源存储方法研究
发布时间:2017-08-08 14:06
本文关键词:基于Hadoop的OA论文资源存储方法研究
更多相关文章: OA论文 HDFS MapReduce 小文件存储 分布式聚类 预取机制
【摘要】:随着Internet上开放存取(Open Access,OA)论文数量的迅猛增加,传统的存储技术已经不能满足这些海量的OA论文资源,如何对其高效的处理和存储成为一个亟待解决的问题。Hadoop云计算架构作为当前研究的热点提供了一个分布式文件系统HDFS,它具有很好的扩展性与容错性,并且可以部署在低廉的硬件上,从而得到广泛应用。但是HDFS不善于处理海量的小文件,在存储时存在着内存占用高与读取速率低的问题。本文在综合分析目前国内外研究现状的基础上,借助OA论文资源的特性,针对HDFS在存储小文件时处理效率低下的问题进行了深入地研究。 首先,介绍了Hadoop的两个核心组件HDFS文件系统与MapReduce编程模型的基本知识,包括整体架构,工作机制,,以及文件读写的流程。 其次,为了实现本文的预取方法,提出了一种基于MapReduce的分布式特征向量构建算法以及分布式聚类算法。该算法首先根据OA论文资源的特点将其向量化,接着这对这些特征向量进行聚类,并描述了该聚类在Hadoop上并行的具体步骤。 再次,基于分布式聚类结果并针对海量OA论文资源在HDFS中的存储问题,提出了一个存储检索预取方法。该方法首先对存储结构进行规划,接着提出基于Lucene的分布式建立索引算法,然后根据用户读取OA论文资源的习惯设计预取机制。 最后,在不同规模的数据集及不同的读取数量上,将本文提出的存储方法与HDFS现有的存储方法进行实验对比与分析。
【关键词】:OA论文 HDFS MapReduce 小文件存储 分布式聚类 预取机制
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
- 摘要5-6
- Abstract6-10
- 第1章 绪论10-15
- 1.1 研究背景及意义10-11
- 1.2 国内外研究现状11-13
- 1.3 本文的主要研究内容13
- 1.4 本文的组织结构13-15
- 第2章 相关理论知识与技术15-23
- 2.1 HDFS文件系统15-19
- 2.1.1 HDFS整体架构15-16
- 2.1.2 HDFS作机制16-17
- 2.1.3 写入与读取17-19
- 2.2 MapReduce编程模型19-22
- 2.2.1 MapReduce基本原理19-21
- 2.2.2 MapReduce作机制21-22
- 2.3 本章小结22-23
- 第3章 面向OA论文资源的分布式聚类算法23-36
- 3.1 符号说明以及相关定义23-25
- 3.2 基于MapReduce的特征向量提取算法25-30
- 3.2.1 分布式分词算法25-26
- 3.2.2 基于文档频的分布式特征词选择算法26-28
- 3.2.3 基于TF-IDF的分布式特征向量构建算法28-30
- 3.3 基于Canopy的K-means聚类算法30-35
- 3.3.1 Canopy聚类算法30-31
- 3.3.2 算法的主要思想31-32
- 3.3.3 算法的并行实现32-35
- 3.4 本章小结35-36
- 第4章 面向OA论文资源的存储检索预取方法36-44
- 4.1 基于MapFile的OA论文资源存储结构36-37
- 4.1.1 MapFile数据结构36-37
- 4.1.2 存储结构37
- 4.2 基于Lucene的OA论文资源检索方法37-41
- 4.2.1 OA论文资源检索机制38-39
- 4.2.2 分布式建立索引39-41
- 4.3 面向OA论文资源的预取方法41-43
- 4.4 本章小结43-44
- 第5章 实验验证与分析44-52
- 5.1 实验环境和实验数据44-45
- 5.1.1 实验环境44-45
- 5.1.2 实验数据45
- 5.2 实验评价标准45-47
- 5.3 实验及结果分析47-51
- 5.3.1 对比算法简介47
- 5.3.2 内存占用对比47-49
- 5.3.3 读取速率对比49-51
- 5.3.4 结果分析51
- 5.4 本章小结51-52
- 结论52-54
- 参考文献54-58
- 攻读硕士学位期间承担的科研任务与主要成果58-59
- 致谢59-60
- 作者简介60
【参考文献】
中国期刊全文数据库 前10条
1 程维红;任胜利;;中国科技期刊开放存取出版现状[J];编辑学报;2007年03期
2 班志杰;古志民;金瑜;;Web预取技术综述[J];计算机研究与发展;2009年02期
3 赵晓永;杨扬;孙莉莉;陈宇;;基于Hadoop的海量MP3文件存储架构[J];计算机应用;2012年06期
4 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
5 鞠玉梅;体裁分析与英汉学术论文摘要语篇[J];外语教学;2004年02期
6 李武;杨屹东;;开放存取期刊出版的发展现状及其影响分析[J];图书情报工作;2006年02期
7 王云才;;国内外“开放存取”研究综述[J];图书情报知识;2005年06期
8 余思;桂小林;黄汝维;庄威;;一种提高云存储中小文件存储效率的方案[J];西安交通大学学报;2011年06期
9 刘小俊;徐正全;潘少明;;一种结合RDBMS和Hadoop的海量小文件存储方法[J];武汉大学学报(信息科学版);2013年01期
10 张海;马建红;;基于HDFS的小文件存储与读取优化策略[J];计算机系统应用;2014年05期
本文编号:640342
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/640342.html