当前位置:主页 > 科技论文 > 计算机论文 >

基于Hadoop的分布式存储与数据分发策略研究

发布时间:2017-10-02 16:21

  本文关键词:基于Hadoop的分布式存储与数据分发策略研究


  更多相关文章: 分布式存储 Hadoop 再生码 数据分发策略


【摘要】:随着计算机技术的快速发展、互联网带宽的增长以及智能设备的普及,信息处理与网络服务已经融入到人们生活的点点滴滴。尤其近些年P2P、社交网络、移动互联网、物联网、电子商务与多媒体共享等网络技术的发展,给人们提供便利的同时,也带来了全球信息数据的爆炸性增长。图灵奖获得者Jim Gray曾就全球数据量的增长提出了一条新的经验定律:未来全球每18个月产生的数据量等于从此以前所产生的数据量总和!如何有效地存储、管理和利用如此庞大的数据成为了亟待解决的问题,对其进行深入地研究,具有很重要的现实意义。如今各个行业、各种应用对其所需存储系统的要求越来越高。分布式存储系统以其廉价性和高扩展性等优点,理所当然地成为了海量数据存储的首要选择。然而,由于在分布式存储系统中各个存储节点的可靠性不高,为了保证数据的可靠性,系统会较频繁地对失效节点进行修复。本文基于OpenStack平台搭建了一个Hadoop实验集群,并在搭建的实验集群中应用了复制策略、XOR策略、RS策略和SR策略四种存储策略。我们通过理论分析,对比了四种存储策略的理论存储开销、理论修复网络流量开销和存储单个文件的可靠性。接着通过在所搭建Hadoop实验集群上进行的实验,得出了四种存储策略存储不同大小文件的实验存储开销、实验修复网络流量开销等性能,将其和理论性能进行了对比,并根据所得实验结果和各个存储策略的特点,通过较为全面的分析,给出了四种存储策略所适用的不同应用场景。分布式存储系统有“一次写入,多次读取”的特点,当用户在从分布式文件系统中读取文件时,需要从各个节点下载所需的数据块,重构出原始文件,特别是对于一些热门的文件,在用户读取文件的高峰时期,分布式存储系统这种“多次读取”的特点就会造成网络拥塞,不仅影响文件的可用性,还可能影响文件的可靠性。论文通过研究基于分布式存储系统的数据分发策略,将分布式存储技术与CDN的思想结合,把通信问题转换为分布式存储问题,在分布式存储架构下利用增加存储开销来缓解高峰期网络拥塞。并以Hadoop集群实验为例,验证了此数据分发策略的可行性。
【关键词】:分布式存储 Hadoop 再生码 数据分发策略
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333
【目录】:
  • 摘要6-7
  • Abstract7-11
  • 第1章 绪论11-16
  • 1.1 研究意义11-12
  • 1.2 国内外研究现状12-14
  • 1.3 本文的主要研究内容与章节安排14-16
  • 第2章 分布式存储相关理论及Hadoop简介16-26
  • 2.1 分布式存储相关理论16-21
  • 2.1.1 复制策略16
  • 2.1.2 纠删码策略16-18
  • 2.1.3 再生码18-21
  • 2.2 Hadoop介绍21-25
  • 2.2.1 MapReduce并行编程模型21-22
  • 2.2.2 HDFS文件系统22-25
  • 2.3 本章小结25-26
  • 第3章 不同存储策略的性能对比26-45
  • 3.1 基于OpenStack平台的Hadoop实验集群搭建26-30
  • 3.1.1 Linux系统配置27
  • 3.1.2 SSH免密码登录配置27-28
  • 3.1.3 Hadoop安装配置28
  • 3.1.4 监控软件配置28-30
  • 3.2 存储策略性能分析30-34
  • 3.2.1 复制策略30-31
  • 3.2.2 XOR策略31
  • 3.2.3 RS策略31-32
  • 3.2.4 SR策略32-33
  • 3.2.5 理论存储策略性能对比33-34
  • 3.3 实验中存储策略的实现及结果对比34-44
  • 3.3.1 实验中存储策略的实现34-38
  • 3.3.2 实验存储性能对比38-41
  • 3.3.3 实验修复网络流量开销对比41-43
  • 3.3.4 不同存储策略适用的应用场景总结43-44
  • 3.4 本章小结44-45
  • 第4章 基于Hadoop的数据分发策略验证45-58
  • 4.1 CDN技术45-46
  • 4.2 分布式存储架构下的数据分发策略46-49
  • 4.3 数据分发策略可行性验证49-57
  • 4.4 本章小结57-58
  • 第5章 总结与展望58-59
  • 5.1 本文工作总结58
  • 5.2 未来工作展望58-59
  • 致谢59-60
  • 参考文献60-64
  • 攻读硕士学位期间发表的论文64

【参考文献】

中国期刊全文数据库 前1条

1 胡飞,朱耀庭,朱光喜;基于Galois域Reed-Solomon码的数据包层FEC编码软件实现[J];通信学报;2002年03期



本文编号:960617

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/960617.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e7154***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com