当前位置:主页 > 科技论文 > 计算机论文 >

基于Hadoop的大数据存储关键技术研究

发布时间:2017-09-15 22:15

  本文关键词:基于Hadoop的大数据存储关键技术研究


  更多相关文章: Hadoop 大数据 存储技术 存储架构


【摘要】:随着大数据时代的到来,传统的数据仓库已经不能满足日益增长的数据存储需求,Hadoop平台的出现很好的解决了这一问题。Hadoop能够部署在廉价的集群上,凭借其开源、扩展性强、容错性好等优势,已成为目前大数据存储的主流平台,国内外的许多知名企业都在Hadoop之上搭建自己的大数据处理系统。大数据存储是进行大数据分析、挖掘价值信息前非常重要的一步,因此目前学术界正纷纷开展大数据存储方面的研究。本文首先对选题的背景及意义进行了介绍,研究了目前国内外大数据及Hadoop的发展现状,指出了大数据技术方面存在的一些问题;其次,对Hadoop的原理与运行机制进行了研究,介绍了Hadoop核心组件HDFS(Hadoop Distributed File System)和Map Reduce的相关知识;然后采用分层的形式梳理了基于Hadoop的大数据处理架构,重点研究了数据存储层的相关技术,如大数据预处理技术和大数据容错技术等;之后,设计了一个基于Hadoop的两级重复数据删除存储架构HTDDSA,该架构在对重复数据进行文件级与数据块级重复数据删除操作的同时还对HDFS小文件存储性能进行了改进。对于HTDDSA,重点研究了它的组成、元数据定义、两级重复数据删除策略、小文件合并策略和文件读取流程;最后,搭建了Hadoop平台,对HTDDSA性能进行了测试,实验结果表明HTDDSA能够获得较高的重删率,小文件写入、读取时间与HDFS相比下降许多。
【关键词】:Hadoop 大数据 存储技术 存储架构
【学位授予单位】:华北电力大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP333
【目录】:
  • 摘要5-6
  • Abstract6-9
  • 第1章 绪论9-15
  • 1.1 选题背景及意义9-10
  • 1.2 国内外研究现状10-14
  • 1.2.1 大数据研究现状10-12
  • 1.2.2 Hadoop平台研究现状12-13
  • 1.2.3 大数据技术存在的问题13-14
  • 1.3 本文的主要研究内容14
  • 1.4 本文的主要结构14-15
  • 第2章 Hadoop平台关键技术15-23
  • 2.1 Hadoop原理与运行机制15-16
  • 2.2 Hadoop关键技术16-22
  • 2.2.1 HDFS架构与流程16-20
  • 2.2.2 Map Reduce计算模式20-22
  • 2.3 本章小结22-23
  • 第3章 Hadoop大数据存储关键技术23-32
  • 3.1 大数据存储方案23-24
  • 3.2 Hadoop大数据存储架构24-26
  • 3.3 大数据预处理技术26-28
  • 3.3.1 数据清理26-27
  • 3.3.2 数据集成27
  • 3.3.3 数据变换27
  • 3.3.4 数据归约27-28
  • 3.4 大数据存储容错技术28-31
  • 3.4.1 基于复制的数据容错28-30
  • 3.4.2 基于纠删码的数据容错30-31
  • 3.5 本章小结31-32
  • 第4章 Hadoop两级重复数据删除存储架构设计32-43
  • 4.1 重复数据删除技术32-34
  • 4.1.1 原理32-33
  • 4.1.2 文件级和数据块级重复数据删除技术33-34
  • 4.1.3 全局重复数据删除技术34
  • 4.2 HDFS小文件存储34-35
  • 4.3 Hadoop两级重复数据删除存储架构35-42
  • 4.3.1 HTDDSA元数据信息定义36-38
  • 4.3.2 HTDDSA两级重复数据删除策略38-40
  • 4.3.3 HTDDSA小文件合并策略40
  • 4.3.4 HTDDSA文件写入与读取流程40-42
  • 4.4 本章小结42-43
  • 第5章 Hadoop两级重复数据删除存储架构性能测试43-51
  • 5.1 搭建Hadoop集群43-48
  • 5.1.1 配置主机名与IP地址映射43-44
  • 5.1.2 配置SSH44
  • 5.1.3 安装JDK44-45
  • 5.1.4 安装Hadoop45-48
  • 5.2 HTDDSA性能测试和分析48-50
  • 5.2.1 参数设置48
  • 5.2.2 HTDDSA两级重复数据删除效率48-49
  • 5.2.3 HTDDSA小文件合并效率49-50
  • 5.3 本章小结50-51
  • 第6章 总结与展望51-53
  • 参考文献53-56
  • 攻读硕士学位期间发表的论文及其它成果56-57
  • 致谢57

【参考文献】

中国期刊全文数据库 前10条

1 郑志蕴;孟慧平;李钝;王振飞;;基于纠删码的动态副本冗余存储研究[J];计算机工程与设计;2014年09期

2 李学学;彭珍瑞;;桥梁健康监测海量数据预处理及存储策略研究[J];电子科技;2014年07期

3 刘晋媛;;论行政公文数据库建设[J];安顺学院学报;2014年03期

4 李平荣;;大数据时代的数据挖掘技术与应用[J];重庆三峡学院学报;2014年03期

5 罗锦坤;;数据预处理关键技术应用研究[J];福建电脑;2014年03期

6 胡立强;崔萌;;运营商发展大数据的机遇和挑战[J];互联网天地;2014年01期

7 冯登国;张敏;李昊;;大数据安全与隐私保护[J];计算机学报;2014年01期

8 柳平;李春青;姬婵娟;;基于HDFS的云存储架构模型分析[J];电脑知识与技术;2013年36期

9 汪云;;融合时代的大数据发展[J];电视技术;2013年22期

10 曹刚;;大数据存储管理系统面临挑战的探讨[J];软件产业与工程;2013年06期



本文编号:859201

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/859201.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c2915***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com