分布式存储系统中并行下载相关技术研究

发布时间：2020-06-08 12:47

【摘要】：当前,随着信息化进程的不断推进,需要存储的各种数据量也不断增加。。数据量的急剧增加给存储系统的设计带来了巨大挑战。以往基于Client/Server的单点集中存储已经不能满足当前的存储需求,与其对应的分布式存储异军突起。在分布式存储中,数据经常是被多副本存储,即一份数据存储多份,目的是提高系统的数据可靠性和可用性。针对多个数据的副本,如何快速的从存储系统中得到所需的数据,已经成为学术界的研究重点。目前主要可以采用两种方式快速获得所需要的数据,一种是采用某种服务器选择算法,选择最优的服务器进行数据的下载。另一种是采用多节点协作的并行下载技术。由于多节点协作的并行下载技术可以充分利用服务器的带宽,避免复杂的服务器选择算法,在存储系统中采用该方法具有明显的优势。本文就存储系统中采用多节点协作并行下载的相关技术进行了研究。本文的主要工作和贡献可归纳为以下几点: 1.分析了分布式存储架构,对863项目(新一代业务运行管控协同支撑环境的开发)中采用的存储架构和相关技术进行了研究,分析了在系统中采用并行下载的相关背景。 2.分析研究了网络带宽和延时测量的机制,并采用网络测量工具分析了延时、丢包等参数对带宽的影响,而且采用NS2仿真的方式分析研究了TCP流量控制和拥塞控制对带宽的影响。 3.分析了常见并行套接字的机制,其中重点分析了流控制传输协议(Stream Control Transmission Protocol:SCTP)的多流和多宿主机制,并利用SCTP的多流机制提出一种改进的FTP的下载方式,并与基于TCP的FTP进行了对比,下载文件时间明显缩短。另外针对并行套接字库Psock采用linux系统调用poll存在的问题,实验分析表明采用epoll代替poll的具有明显的性能优势。 4.提出一种基于带宽测量的多节点协作并行下载机制,主要是对文件分块下载时的最后一块采用动态调整的方式,这样可以让多个并行下载流尽可能的同时结束,加快下载速度。另外为了减少服务器端对硬盘的读取,将服务器端缓存加入到了并行下载技术中,实验表明此方法加快了下载速度。
【图文】：

架构图,架构

Hadoop 分布式文件系统 HDFS图 2.1 HDFS 架构图图 2.1 给出了 HDFS 的整体架构图，主要包括两个部分，一个 Namenode 节点，一定数目的 Datanodes 节点。Namenode 是负责管理文件的元数据信息，如文件的命名空间。Datanodes 是文件数据块的真实存储位置。HDFS 设计时主要是针对大文件存储的，所以不适合小文件存储，另外，HDFS 不支持文件并发写入和文件修改且使用场景一般是一次写入多次读取的情况(Write-Once-Read-Many)。HDFS 的读写过程分别如图 2.2 和 2.3 所示。

磁盘,机制,文件,文献

图 2.2 HDFS 读文件图 2.3 HDFS 写文件储三份，这样磁盘使用将增加 200%。文献(Bin Fan etce 机制，并把它引入到了 HDFS 当中。DiskReduce 作
【学位授予单位】：中国科学技术大学
【学位级别】：硕士
【学位授予年份】：2011
【分类号】：TP333

【引证文献】