基于网络编码的hadoop分布式文件系统优化方法的研究与实现
发布时间:2020-05-07 10:51
【摘要】:随着互联网技术的不断飞速发展,数字信息和科技信息等各种数据出现爆炸式增长,海量数据的存储和管理成为一个重要研究内容。分布式存储系统由于其存储容量大、扩展性强等性能方面的优势而被广泛使用。分布式存储系统多用副本机制实现冗余,这种方式往往导致系统有比较大的存储开销和修复带宽开销。为了提高系统的整体性能,人们在分布式存储系统中引入了网络编码。虽然网络编码可以显著提高系统性能,但是需要连接很多节点去进行修复操作,即严重提高了磁盘I/O。同时引入的网络编码的分布式存储系统的数据加密问题也受到了大家的一致关注。本文针对分布式存储系统的容错问题和加密问题,以Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)为目标系统,对纠删码和网络编码应用于分布式文件存储系统中的系统性能问题及数据加密问题进行了研究。论文的主要工作包括:(1)针对网络编码应用于分布式存储系统中时,在故障数据修复过程的磁盘I/O较大的问题,对系统最小存储再生码(Minimum Storage Regeneration Code,MSR)进行改进,考虑其局部修复性,提出一种以系统MSR码为基础的局部修复编码。将副本机制、纠删码机制和以系统MSR码为基础的局部修复编码的机制分别应用于HDFS中,研究了存储开销、修复带宽开销和磁盘I/O开销等性能。通过理论分析和实验证明,在付出一定的存储开销的情况下,本文中提出的方法能够明显降低磁盘的I/O操作。(2)针对分布式文件系统中数据加密量较多的问题,研究了基于网络编码的HDFS系统的加密机制,提出了一种轻量级的加密机制。该机制不再将所有的数据或者编码数据进行加密,而是只对其中编码过程中使用的编码矩阵进行加密操作,将网络编码和加密操作结合在一起。通过数据分析和实验证明,这种加密方式在保证了系统安全性的前提下,减少了需要加密的数据量,提高了整个系统的效率。
【图文】:
北京交通大学硕士学位论文逦相关技术逡逑间单元内,源点最多只能通过多播同时传输1.5个字符到达宿点。若是节点S采逡逑用网络编码技术进行多播操作,节点4会对来自节点2和节点3的数据进行异或逡逑运算,然后传输给节点5,在宿点中,,可以同时通过异或运算获取2个字符。逡逑
北京交通大学硕士学位论文逦相关技术逡逑要的服务,保证了数据的可用性。完全副本机制的存储原理如图2-2所示。逡逑原始数据逦12345逡逑副本数据逦123斗|5逦12345逡逑访问数据逦n逦I邋0逦.逦■逡逑块逦|逦1逦2逦3逦4逦5逡逑逦逦逦逦逡逑原始数据逦12345逡逑图2-2完全副本冗余存储的原理图逡逑Fig.2-2邋Schematic邋of邋full邋copy邋redundant邋storage逡逑(2)完全副本机制修复原理逡逑当分布式文件系统中的某个机器宕机、数据节点故障或者节点数据发生错误,逡逑将启动修复进程。修复的整个过程十分简单,即选择失效节点的原始数据块的其逡逑中一个备份进行复制操作,将复制出的新的数据块置入选择好的一个节点中。完逡逑全副本机制的修复原理如图2-3所示逡逑副本数据逦1逦2逡逑O逡逑4逡逑写入逡逑逦逦逦逦逦邋逦逦邋逦逡逑原始数据逦1234
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP333;TN918.3
本文编号:2652865
【图文】:
北京交通大学硕士学位论文逦相关技术逡逑间单元内,源点最多只能通过多播同时传输1.5个字符到达宿点。若是节点S采逡逑用网络编码技术进行多播操作,节点4会对来自节点2和节点3的数据进行异或逡逑运算,然后传输给节点5,在宿点中,,可以同时通过异或运算获取2个字符。逡逑
北京交通大学硕士学位论文逦相关技术逡逑要的服务,保证了数据的可用性。完全副本机制的存储原理如图2-2所示。逡逑原始数据逦12345逡逑副本数据逦123斗|5逦12345逡逑访问数据逦n逦I邋0逦.逦■逡逑块逦|逦1逦2逦3逦4逦5逡逑逦逦逦逦逡逑原始数据逦12345逡逑图2-2完全副本冗余存储的原理图逡逑Fig.2-2邋Schematic邋of邋full邋copy邋redundant邋storage逡逑(2)完全副本机制修复原理逡逑当分布式文件系统中的某个机器宕机、数据节点故障或者节点数据发生错误,逡逑将启动修复进程。修复的整个过程十分简单,即选择失效节点的原始数据块的其逡逑中一个备份进行复制操作,将复制出的新的数据块置入选择好的一个节点中。完逡逑全副本机制的修复原理如图2-3所示逡逑副本数据逦1逦2逡逑O逡逑4逡逑写入逡逑逦逦逦逦逦邋逦逦邋逦逡逑原始数据逦1234
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP333;TN918.3
【参考文献】
相关期刊论文 前2条
1 花育聪;;基于Hadoop分布式文件系统的模型分析[J];信息通信;2015年12期
2 余林琛;章巍;林强;许杰星;钟贝;;RS纠删码在云存储中的应用[J];微电子学与计算机;2011年08期
相关博士学位论文 前2条
1 朱云锋;分布式存储系统中基于纠删码的容错技术研究[D];中国科学技术大学;2014年
2 王禹;分布式存储系统中的数据冗余与维护技术研究[D];华南理工大学;2011年
相关硕士学位论文 前5条
1 李大江;HDFS纠删码机制的优化研究[D];哈尔滨工业大学;2018年
2 邓锐;分布式存储系统中再生码的性能分析和优化设计[D];哈尔滨工业大学;2017年
3 庄园;基于Lustre文件系统MPI-I/O优化的改进与实现[D];山东大学;2017年
4 卢旭;基于网络编码的WSN轻量级安全研究[D];北京邮电大学;2013年
5 陈寅;基于网络编码的分布式存储技术研究[D];西安电子科技大学;2011年
本文编号:2652865
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2652865.html