存储系统中测试数据集的构建方法研究
发布时间:2020-02-14 01:51
【摘要】:随着大数据(Big Data)的应用越来越广泛,社会对信息存储的需求在不断地增大;而且随着存储技术的发展,存储系统架构和存储系统软件都变得复杂多样;此外,应用环境,存储的数据也越来越复杂多变;因此,存储系统的管理测试,性能优化等工作变得异常困难和重要。存储系统的性能测试,文件系统元数据管理等方面的研究,都需要大量的负载数据,但数据来源多是以前的trace数据集,这些数据集通常存在数据信息不完整,,各种操作混合的问题;而且,现公开的trace数据集缺少相应的文件系统元数据的镜像数据。另外,目前还没有针对大数据应用环境下的可用trace数据集。 针对以上问题,提出了一种基于统计分析的采用自相似性模型的trace数据集构建方法。该方法能够生成精确的可重现的文件系统镜像,并能合成相应的大规模的,可定制的文件系统动态负载数据集。文件系统trace负载合成系统通过对实际trace数据集的统计分析,得出动态属性的负载模型并加以评估,用文件系统镜像生成引擎生成文件系统的镜像,用动态负载生成引擎采用自相似模型方法(Self-similarity)来合成动态的可定制的动态负载数据集。 实验结果表明,提出的方法能精确地生成文件系统镜像负载;合成的trace数据集的时间到达模式(Arrival Pattern)具有非常高的自相似突发性,其自相似性参数H几乎接近1;而且合成I/O负载的访问模式(Access Pattern)具有较好的突发性和时空局部性。此外,该方法能合成自适应的动态trace数据集。
【图文】:
科 技 大 学 硕 士 学析的自相似性负载合成方法设计载主要有两种,一种是代表文件系统统动态负载的文件系统 trace 数据集。。如何获得文件系统镜像数据呢,那系统镜像负载分为元数据信息和文件态负载的合成,下面也将会有详细的生成模块设计的生成,主要包括文件系统镜像文件文件大小,目录和文件的分布等信息由统计分析得来。
一个 trace 数据集为 7 点到 8 点这一个小时内的 trace 数据。下面分别对这两个 trace数据集在不同时间段内的 I/O 个数进行统计。因为,是在文件系统层的 trace 数据集,本文以 OPEN 操作,CREAT 操作,和 UNLINK 操作为 I/O 操作的统计元素。文件系统一个 OPEN 操作后,对文件的读写记为一个 I/O 访问。统计结果如图 5.1 和 5.2 所示。(a) 时间间隔为 1 秒时的 I/O 次数
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333
本文编号:2579330
【图文】:
科 技 大 学 硕 士 学析的自相似性负载合成方法设计载主要有两种,一种是代表文件系统统动态负载的文件系统 trace 数据集。。如何获得文件系统镜像数据呢,那系统镜像负载分为元数据信息和文件态负载的合成,下面也将会有详细的生成模块设计的生成,主要包括文件系统镜像文件文件大小,目录和文件的分布等信息由统计分析得来。
一个 trace 数据集为 7 点到 8 点这一个小时内的 trace 数据。下面分别对这两个 trace数据集在不同时间段内的 I/O 个数进行统计。因为,是在文件系统层的 trace 数据集,本文以 OPEN 操作,CREAT 操作,和 UNLINK 操作为 I/O 操作的统计元素。文件系统一个 OPEN 操作后,对文件的读写记为一个 I/O 访问。统计结果如图 5.1 和 5.2 所示。(a) 时间间隔为 1 秒时的 I/O 次数
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333
【参考文献】
相关期刊论文 前1条
1 赵晓南;李战怀;张晓;曾雷杰;;基于trace的网络存储系统评测研究[J];计算机科学;2010年02期
本文编号:2579330
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2579330.html