当前位置:主页 > 科技论文 > 计算机论文 >

分布式存储系统中并行下载相关技术研究

发布时间:2020-06-08 12:47
【摘要】:当前,随着信息化进程的不断推进,需要存储的各种数据量也不断增加。。数据量的急剧增加给存储系统的设计带来了巨大挑战。以往基于Client/Server的单点集中存储已经不能满足当前的存储需求,与其对应的分布式存储异军突起。在分布式存储中,数据经常是被多副本存储,即一份数据存储多份,目的是提高系统的数据可靠性和可用性。 针对多个数据的副本,如何快速的从存储系统中得到所需的数据,已经成为学术界的研究重点。目前主要可以采用两种方式快速获得所需要的数据,一种是采用某种服务器选择算法,选择最优的服务器进行数据的下载。另一种是采用多节点协作的并行下载技术。由于多节点协作的并行下载技术可以充分利用服务器的带宽,避免复杂的服务器选择算法,在存储系统中采用该方法具有明显的优势。本文就存储系统中采用多节点协作并行下载的相关技术进行了研究。本文的主要工作和贡献可归纳为以下几点: 1.分析了分布式存储架构,对863项目(新一代业务运行管控协同支撑环境的开发)中采用的存储架构和相关技术进行了研究,分析了在系统中采用并行下载的相关背景。 2.分析研究了网络带宽和延时测量的机制,并采用网络测量工具分析了延时、丢包等参数对带宽的影响,而且采用NS2仿真的方式分析研究了TCP流量控制和拥塞控制对带宽的影响。 3.分析了常见并行套接字的机制,其中重点分析了流控制传输协议(Stream Control Transmission Protocol:SCTP)的多流和多宿主机制,并利用SCTP的多流机制提出一种改进的FTP的下载方式,并与基于TCP的FTP进行了对比,下载文件时间明显缩短。另外针对并行套接字库Psock采用linux系统调用poll存在的问题,实验分析表明采用epoll代替poll的具有明显的性能优势。 4.提出一种基于带宽测量的多节点协作并行下载机制,主要是对文件分块下载时的最后一块采用动态调整的方式,这样可以让多个并行下载流尽可能的同时结束,加快下载速度。另外为了减少服务器端对硬盘的读取,将服务器端缓存加入到了并行下载技术中,实验表明此方法加快了下载速度。
【图文】:

架构图,架构


Hadoop 分布式文件系统 HDFS图 2.1 HDFS 架构图图 2.1 给出了 HDFS 的整体架构图,主要包括两个部分,一个 Namenode 节点,一定数目的 Datanodes 节点。Namenode 是负责管理文件的元数据信息,如文件的命名空间。Datanodes 是文件数据块的真实存储位置。HDFS 设计时主要是针对大文件存储的,所以不适合小文件存储,另外,HDFS 不支持文件并发写入和 文 件 修 改 且 使 用 场 景 一 般 是 一 次 写 入 多 次 读 取 的 情 况(Write-Once-Read-Many)。HDFS 的读写过程分别如图 2.2 和 2.3 所示。

磁盘,机制,文件,文献


图 2.2 HDFS 读文件图 2.3 HDFS 写文件储三份,这样磁盘使用将增加 200%。文献(Bin Fan etce 机制,并把它引入到了 HDFS 当中。DiskReduce 作
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP333

【引证文献】

相关期刊论文 前1条

1 张超;潘旭东;;Linux下基于EPOLL机制的海量网络信息处理模型[J];强激光与粒子束;2013年S1期

相关硕士学位论文 前1条

1 童明;基于HDFS的分布式存储研究与应用[D];华中科技大学;2012年



本文编号:2703112

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2703112.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e986d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com