当前位置:主页 > 科技论文 > 计算机论文 >

Hadoop分布式文件系统存储机制的研究与优化

发布时间:2020-12-07 19:58
  随着互联网在各行各业的应用,数据以井喷之势呈指数暴增,传统的数据处理方式已经不再适用。这种背景下,各种数据存储和处理技术蓬勃发展,云计算和云存储应运而生。作为云平台最基础的存储设施,Hadoop分布式文件系统(HDFS)由于其高拓展、高容错、开源且能部署在低成本机器上等特性,一经问世就受到了各大企业和科研机构的青睐,在教育、金融、医疗、军事等领域发挥着举重若轻的作用。然而,原始的HDFS使用“一主多从”的架构,将元数据与真实文件分开存储,由Name Node管理对系统至关重要的命名空间。这样的设计在简化系统架构的同时也带来了Name Node的高可用性问题。此外,HDFS最初被设计成以流式方式服务于大文件,并不适用于存储和分析海量小文件的应用,而当前各类社交和购物网站上每时每刻都在产生着小文件,直接存储不仅造成Name Node的内存压力,而且导致文件读写效率低下。针对Name Node的高可用性问题,本文对HDFS的核心运行机制进行了深入分析,并通过对早期几种HDFS高可用性解决方案进行对比,总结了解决高可用性问题的思路,并由此引入当前Hadoop2.X时代的HA方案。在对该方案各模... 

【文章来源】:西北大学陕西省 211工程院校

【文章页数】:83 页

【学位级别】:硕士

【部分图文】:

Hadoop分布式文件系统存储机制的研究与优化


EditLog的文件名形式

转换图,系统状态


一般使用 RAS 参数来衡量其性能,分别为高可靠性(Relivailability)和可维护性(Serviceability)。由 3.1 节可知,可靠性和可 和 MTTR 决定,高可用性为系统正常对外服务占总运行时间的百示为:统发生故障的概率为 a=1/MTTF,修复概率为 b=1/MTTR,将其带点来说,其可用性可以表示为:统中有两种状态的 NameNode,忽略掉网络因素,运行情况有以下MTTFMTTRMTTFA+=abbababaaba+=+=+=+=1111MTTFMTTRMTTFA

配置文件,网络配置


在集群正式启动之前,必须确保集群中每台服务器之间均能互相访问。因此,需要集群中每个节点的配置文件/etc/hosts 进行相应编辑,具体内容如下。192.168.1.61 Master1192.168.1.64 Master2192.168.1.65 Master3192.168.1.62 Slave1192.168.1.63 Slave2当所有节点均配置完 hosts 文件后,使用 ping 命令测试配置是否生效,若 ping 不通他节点,说明网络出现问题,需要检查系统的网络配置。网络配置完成后,对 Hadoop 的相关配置文件进行编辑,这些文件存放在 Hadoop装目录下的 etc 文件夹中,需要配置的文件为 core-site.xml、hdfs-site.xml 和pred-site.xml。首先是 core-site.xml 配置文件,具体信息如图 5.1 所示。

【参考文献】:
期刊论文
[1]面向大数据云存储系统的关键技术研究[J]. 刘若冰.  现代电子技术. 2016(06)
[2]基于Hadoop的海量医疗小文件处理系统[J]. 魏强,孔广黔,吴云.  计算机与数字工程. 2015(04)
[3]基于HDFS的小文件存储与读取优化策略[J]. 张海,马建红.  计算机系统应用. 2014(05)
[4]利用Zookeeper对HDFS中Namenode单点失败的改进方法[J]. 鲁阳,郑岩.  软件. 2012(12)
[5]Namenode单点故障解决方案研究[J]. 邓鹏,李枚毅,何诚.  计算机工程. 2012(21)
[6]基于Hadoop的海量MP3文件存储架构[J]. 赵晓永,杨扬,孙莉莉,陈宇.  计算机应用. 2012(06)
[7]一种优化分布式文件系统的文件合并策略[J]. 陈剑,龚发根.  计算机应用. 2011(S2)
[8]NAS存储技术的研究与应用[J]. 李世畅,杨浩澜,李世亚,陶洋.  计算机工程与应用. 2003(13)

硕士论文
[1]HDFS云存储系统可用性能的优化研究[D]. 胡梦楠.电子科技大学 2016
[2]HDFS分布式文件系统存储策略研究[D]. 周小玉.电子科技大学 2015
[3]基于HDFS的名字节点的性能优化技术研究[D]. 李梦楠.沈阳工业大学 2015
[4]基于Hadoop的海量医学影像数据处理过程中的优化方法研究[D]. 王燕楠.首都师范大学 2014
[5]HDFS高可用性方案的研究与优化[D]. 韩佩.西北大学 2013
[6]主从式云计算平台高可用性研究[D]. 邓鹏.湘潭大学 2013
[7]基于HDFS的多Namenode元数据管理研究[D]. 张博.电子科技大学 2013
[8]一种高性能HDFS存储平台的研究与实现[D]. 王磊.西安电子科技大学 2013
[9]基于Paxos算法的HDFS高可用性的研究与设计[D]. 杨平安.华南理工大学 2012
[10]基于HDFS的分布式存储研究与应用[D]. 童明.华中科技大学 2012



本文编号:2903820

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2903820.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7ec83***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com