HDFS数据副本存储的优化及对海量数据存储方法的研究

发布时间：2017-04-21 16:04

本文关键词：HDFS数据副本存储的优化及对海量数据存储方法的研究，由笔耕文化传播整理发布。

【摘要】：如今社会互联网飞速发展,网络上产生越来越多的数据,这些数据具有非常重要的价值,如何存储和管理这些数据非常重要,这也是一个非常具有挑战的任务在大数据时代的到来。采用旧的的模式手工记录及使用目前的关系型数据库已经远远不能同时满足对大数据及时的存储及管理,那么如何存储大数据已经变得非常重要也很艰难,怎么样去管理大数据是本文要研究的主要内容,对于大数据的价值的挖掘及其搜索是当务之急,所以说大数据已经变成为现代社会的新的挑战。在因特网快速发展的时期,尤其是对于一些社交网络、网上商城电子商务及移动通信把我们带入到了一个以PB为单位的半结构化与非结构化的大数据信息的新时代,而生活在这个时代每天都会有数以亿计的数据产生,也孕育着在这个时代有着非常大的机遇。本文主要讲述HDFS数据块以多副本存储存在的不足,针对不足提出了概率模型来解决该不足。该概率模型是基于数学的角度考虑来解决多副本存储问题,预测副本的可用性从而计算出数据副本复制的次数,求出数据块需要复制的次数后创建数据副本模型,建好模型后考虑到负载均衡问题还需要对模型进行进一步的存放。这里采用一致性哈希算法来对数据模型放置,这样可以达到负载均衡。在此优化的基础上我们开始对大数据存储方案进行研究。本文采用的数据库是非关系型数据库HBase数据库来对大数据进行存储,HBase数据库存储的优点就是结构简单按列存储非常方便,不足就是自身存储方案随着数据量的不断增大会不断的触发其自身的split和compaction机制这样大大的降低了存储性能,本文提出了改进的方案就是结合HDFS来对大数据进行存储,将大数据文件存储在HDFS中将数据的索引存储在HBase中。为了验证本文提出的两种改进方案,本实验采用Hadoop构架来进行数据存储,本实验环境采用的是Linux系统和8台虚拟机搭建而成。对于实验结果显示基于概率模型的HDFS副本放置策略优于系统默认的以3个副本放置的策略,对于存储时间上有着明显的提升。对于HBase改进的存储策略随着数据集数据量不断的增加改进的存储效率上也有着明显的提升。
【关键词】：HBASE Hadoop 大数据 HDFS MapReduce
【学位授予单位】：辽宁大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP311.13;TP333
【目录】：

摘要4-5
Abstract5-12
第1章绪论12-18
1.1 研究背景及意义12-14
1.1.1 研究背景12-13
1.1.2 研究意义13-14
1.2 大数据存储的研究现状14-15
1.2.1 国外的研究现状14-15
1.2.2 国内的研究现状15
1.3 大数据存储的特点及其难点15-16
1.3.1 大数据存储的特点15
1.3.2 大数据存储的难点15-16
1.4 论文结构16-17
1.5 本章小结17-18
第2章研究基础18-27
2.1 Hadoop简介18-19
2.1.1 Hadoop构架的优势18-19
2.1.2 Hadoop构架下的项目19
2.2 分布式文件系统HDFS19-23
2.2.1 分布式文件系统简介19-20
2.2.2 HDFS的设计理念20
2.2.3 HDFS的构架20-21
2.2.4 名字节点和数据节点简介21-23
2.3 MapReduce框架实现构架23-26
2.3.1 MapReduce简介23-25
2.3.2 MapReduce数据处理25
2.3.3 执行分配的任务25-26
2.4 本章小结26-27
第3章 HDFS对数据块多副本复制策略的优化27-41
3.1 HDFS的数据块副本27-29
3.1.1 详述分布式文件系统的构架27-28
3.1.2 文件系统的存储过程28-29
3.2 数据块副本存在的问题29
3.3 对数据副本进行优化29-40
3.3.1 基于概率模型选择副本存储个数31-33
3.3.2 创建副本模型33-35
3.3.3 副本放置策略35-40
3.4 本章小结40-41
第4章对海量数据存储方法的研究41-53
4.1 基于HBase对大数据存储方法的研究41-44
4.1.1 HBase的体系结构42-43
4.1.2 HRegionServer的管理过程43-44
4.2 对大数据存储的主要解决方案44-48
4.2.1 HDFS对小文件存储方案的改进46-47
4.2.2 对改进的小文件存储方案的实现47-48
4.3 HBase结合HDFS对大数据存储的实现48-52
4.3.1 大数据存储前进行压缩48-50
4.3.2 HBASE库表50-52
4.4 本章小结52-53
第5章实验结果及数据分析53-61
5.1 试验环境53
5.2 集群的搭建及配置53-57
5.2.1 Hadoop配置54-55
5.2.2 SSH配置55-56
5.2.3 HBase的配置56-57
5.3 实验结果分析57-60
5.3.1 副本优化方案分析57-59
5.3.2 HBase与HDFS结合存储方案分析59-60
5.4 本章总结60-61
第6章总结与展望61-63
6.1 论文总结61-62
6.2 未来工作展望62-63
致谢63-64
参考文献64-67

【参考文献】

中国期刊全文数据库前4条

1 郭东;杜勇;胡亮;;基于HDFS的云数据备份系统[J];吉林大学学报(理学版);2012年01期

2 王珊;王会举;覃雄派;周p，

本文编号：320673

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/320673.html

上一篇：氧化铪薄膜阻变特性研究
下一篇：计算机基础课的过程性测评系统设计

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|