分布式文件系统性能建模及应用研究

发布时间：2020-06-14 14:03

【摘要】：分布式文件系统能够有效地解决分布式系统中海量数据存储和I/O瓶颈问题,而成为了目前存储工业界和学术界的研究热点。分布式文件系统是任何大规模分布式计算环境的重要组成部分,它的性能直接影响着整个分布式计算环境的执行效率。因此,分布式文件系统性能的研究是分布式文件系统研究的重点和难点。然而,分布式文件系统在性能评估、性能建模、预测和性能优化等方面存在着很多问题。针对这些问题,本文系统地研究了分布式文件系统性能建模中的若干关键技术,包括分布式文件系统的性能因素及分布、性能评估架构、性能预测模型和性能优化等问题。论文的主要工作包括如下内容: (1)系统地研究了大量分布式文件系统架构及性能因素,提出了典型的分布式文件系统性能因素分布框架。将分布式文件系统性能因素划分为元数据服务器相关的性能因素,数据存储服务器相关的性能因素,客户端/应用相关的性能因素和网络相关的性能因素四部分。并对关键性的性能因素进行了定量和定性的分析,为分布式文件系统性能研究打下基础。在此基础上,提出了分布式文件系统性能评估框架,系统地研究了分布文件系统中可行的性能评估方案。并以Lustre文件系统为研究对象,评估并且分析了一些关键性能因素潜在的性能特征,为分布式文件系统性能研究提供参考。 (2)提出了基于机器学习的性能预测模型的性能预测方法。在研究文件系统的架构和性能因子后,设计了一个基于机器学习的分布式文件系统预测模型(MLPPModel)。运用特征选择算法对性能因子数量进行约简,挖掘出系统性能和性能因子之间的特定关系来进行性能预测。通过设计大量实验用例,对特定的Lustre文件系统进行性能评估和预测。评估和实验结果表明threads/OST,对象存储器(OSS)的数量,磁盘数目和RAID的组织方式是四个调整系统性能的最重要因子,预测结果的平均相对误差能控制在23.3%-25.6%之间,具有较好的预测准确度。 (3)提出了相对性能预测模型的性能预测方法。通过对性能因子研究,进行了一系列性能评估实验并提出性能相关性模型(PRModel)。在实验评估和PRModel分析中,发现不同的性能因子间存在着紧密的性能相关性。为了挖掘并利用这种相关性信息,提出了一个新颖的相对性能预测模型(RPPModel),可以基于已有的部分性能因子的特性来预测与其有密切相关性的其他性能因子下的性能。为了验证RPPModel的有效性,设计了大量的实验用例。实验结果表明预测结果的平均相对误差能控制在17.1%-27.9%的范围内,易于使用且具有较好的预测准确度。 (4)提出基于并行策略的HDFS写操作优化方案,并应用基于机器学习的性能预测模型和相对性能预测模型对改进的HDFS文件系统进行预测和分析。首先,以基于HDFS的Hadoop平台和基于Lustre的Hadoop平台为实验平台,系统地评估HDFS和Lustre在搜索引擎应用场景下的性能,实验评估发现HDFS在写性能方面的不足。然后,提出基于并行策略的HDFS写操作优化方案,优化HDFS的写性能。实验结果表明改进的HDFS文件系统能有效的提高写性能。同时,应用性能预测模型MLPPModel和相对性能预测模型RPPModel对改进的HDFS文件系统进行预测和分析。预测结果表明:在预测改进的HDFS文件系统性能时,性能预测模型MLPPModel预测的平均相对误差在1.45%-18.17%之间,相对性能预测模型RPPModel预测的平均相对误差在1.28%-19.05%之间,具有较好的预测准确度。对指导分布式文件系统性能的改进具有一定的指导意义。
【学位授予单位】：华南理工大学
【学位级别】：博士
【学位授予年份】：2011
【分类号】：TP333;TP181
【图文】：

基本架构

默认情况下，每个 Chunk 块，将保存 3 个副本到不同的 Chunk 服务器上从而提高数据的可靠性。(3)为了简化设计，将 Master 服务器设计成单 Master 服务器架构。Maser 服务器责管理元数据及监视 Chunk 服务器的状态等。而不进行任何的文件数据交互。客户会缓存 Master 服务器返回的元数据信息，提高访问效率。(4)Chunk 服务器和 Client 不缓存任何文件数据，因为跑在 GFS 上应用访问的数文件比较大，很难被客户端缓存下来。不缓存文件数据可简化系统设计。(5)Chunk 大小的选择。默认情况下，被设计成 64MB。出于以下几方面的考虑减少 Client 和平 Master 服务器的通信次数，优化数据传输效率。2.2.1.2 GFS 系统架构GFS文件系统是面向搜索引擎应用的分布式文件系统，采用将元数据和实际文件据相分离的设计思路。GFS的基本架构[17]如图 2-1 所示。

客户端,流对象,处理块,直接检索

图 2-5 HDFS 读操作Fig. 2-5 Read operation of HDFS图 2-5 可看出，HDFS 读操作的基本流程包括：1)客户端首先调用 open()操作向 DistributedFileSytem 对象发送读文件请求2)DistributedFileSytem 对象再通过 RPC 与 NameNode 交互，获取文件的地3)客户端通过 FSDataInputStream 流对象读取数据，FSDataInputStreamode 和 DataNode 的 I/O。4)FSDataInputStream 流通过调用 read()操作分别从一个或多个 DataNode 读5)当客户端读取完数据后，将调用 close()操作。读取文件时，HDFS 的客户端首先从 NameNode 获取一系列 DataNode 地端直接与DataNode进行数据交互。这种客户端与DataNode直接检索数据 HDFS 同时处理大量的并发客户端请求，因为数据流只在 DataNode 间Node 仅仅处理块地址请求，而不提供数据服务。由于 NameNode 将元数据

【引证文献】