海量存储系统中数据分级存储的关键技术研究
发布时间:2020-10-24 23:59
海量数据的应用导致分布式文件系统并发访问量的猛增,而文件读写压力变大必然需要考虑文件I/O带来的系统瓶颈。考虑到不同存储设备性能和成本不同,而且数据访问具有时间和空间局部性,因此需要进行分级存储,使经常被访问到的数据倾向存放到高性能设备,最近访问时间内不经常被读写的数据放置到低性能设备。考虑到数据存在着周期性的变化规律,数据访问的热度是变化的,海量存储系统中相当大比例的数据静止不动,而且高性能存储设备有限,因此基于分级存储技术进行数据迁移。 典型的基于文件级的价值判定和迁移体系结构需要不断完善和补充,目前对数据的价值进行判定的因素有很多,需要权衡它们的优劣。基于文件级的价值判定需要完善以更好的适应存储设备对读写的要求。针对实际应用中的数据访问高峰期应用场景,亟待提出好的数据迁移策略,来优化对存储设备的读写延迟。 针对以上存在的问题,本文提出了一个基于文件级的价值判定和迁移体系结构,用三个指标来权衡价值评定方法的优劣,为了更好的适应存储设备读写,对已有的文件级价值评定进行模型改进。对当前的适用的典型场景进行分析后,基于改进后的价值评定模型提出基于文件级的数据迁移算法。针对并发访问读写压力变大之后对数据进行迁移的场景,用web并发访问测试工具来对数据迁移之后的硬件读写进行评估,经过对web服务器并发访问响应时间的测试验证,与常规迁移方法相比该算法的确改进了系统的性能。
【学位单位】:国防科学技术大学
【学位级别】:硕士
【学位年份】:2011
【中图分类】:TP333
【部分图文】:
国防科学技术大学研究生硕士学位论文增长,数据价值在时间和空间上的变化,需要不断完善和发展分,来满足日益增长的海量数据更高的存储需求。级存储的设计目标是尽可能发挥各存储介质的存储能力,使得存能最大化。存储系统的分级存储结构是将性能、可靠性和价格不成倒金字塔结构,如图 1.1 所示,访问延迟越来越低、可用的存
最大可使用容量 55TB 275TB 550TB最大性能(TB/hr)Deduplication running 1.5 2.1 4.3Standard compression 2.3 4.1 8.2Direct Tape Creation Speed(TB/hr) 0.9 1.5 3.0式进行分层存储,将不同类别的数据分配到不同类型率。据行业调查分析显示,在存储系统中,无论何时都不动的[6]。将不同类别的数据部署到不同类型的存储介如果不进行合理的优化配置,比如没有及时将大量访能设备向低性能设备转移,则将会造成大量不经常访状态,降低系统使用效率。因此,基于多级存储进行足大规模存储系统日益增长的需求。如 IBM 采用读写硬盘 SSD(Solid State Disk)和存储介质 HDD 进行分的数据,在高性能设备与低性能设备之间用智能分层技 1.2 所示。
Extent 的尺寸范围在 16MB 至 8GB 之间。IBM Easy Tier 以 自 为核心设计理念,能够自动分析系统中的数据访问频率的差异,只把访高的数据保存到固态硬盘上,其他的数据放在普通的硬盘上就能够达到足能。当存储设备中频繁访问的数据量较少时,自动分层技术可最大化的发挥作y Tier 自动地在系统里判断这个卷是不是热点卷,即,访问频率高的卷,同以智能的把一个大的逻辑卷分成很多小的子卷,同时可以再判断这个子卷热点卷,如果是热点数据将其自动迁移到固态盘,同时把固态盘的非热点回到光纤盘,此过程完全是自动的,不需要用户过多的干预就能够自动的层。Easy Tier 只支持两个存储层:SSD 一层,硬盘驱动器一层。IBM 的 Er 自动将各种类型的硬盘驱动器都划为较低的那一层。IBM Almaden 研究中心基于多级存储的体系结构提出了基于云环境的面向质的数据迁移,基本的迁移模型将迁移过程分为三个阶段[20]:一,了解判数据阶段。二,数据迁移阶段。三,优化阶段。图 2.2 为 IBM Almaden 研对三个阶段系统的响应时间所做的测试图。
【共引文献】
本文编号:2855151
【学位单位】:国防科学技术大学
【学位级别】:硕士
【学位年份】:2011
【中图分类】:TP333
【部分图文】:
国防科学技术大学研究生硕士学位论文增长,数据价值在时间和空间上的变化,需要不断完善和发展分,来满足日益增长的海量数据更高的存储需求。级存储的设计目标是尽可能发挥各存储介质的存储能力,使得存能最大化。存储系统的分级存储结构是将性能、可靠性和价格不成倒金字塔结构,如图 1.1 所示,访问延迟越来越低、可用的存
最大可使用容量 55TB 275TB 550TB最大性能(TB/hr)Deduplication running 1.5 2.1 4.3Standard compression 2.3 4.1 8.2Direct Tape Creation Speed(TB/hr) 0.9 1.5 3.0式进行分层存储,将不同类别的数据分配到不同类型率。据行业调查分析显示,在存储系统中,无论何时都不动的[6]。将不同类别的数据部署到不同类型的存储介如果不进行合理的优化配置,比如没有及时将大量访能设备向低性能设备转移,则将会造成大量不经常访状态,降低系统使用效率。因此,基于多级存储进行足大规模存储系统日益增长的需求。如 IBM 采用读写硬盘 SSD(Solid State Disk)和存储介质 HDD 进行分的数据,在高性能设备与低性能设备之间用智能分层技 1.2 所示。
Extent 的尺寸范围在 16MB 至 8GB 之间。IBM Easy Tier 以 自 为核心设计理念,能够自动分析系统中的数据访问频率的差异,只把访高的数据保存到固态硬盘上,其他的数据放在普通的硬盘上就能够达到足能。当存储设备中频繁访问的数据量较少时,自动分层技术可最大化的发挥作y Tier 自动地在系统里判断这个卷是不是热点卷,即,访问频率高的卷,同以智能的把一个大的逻辑卷分成很多小的子卷,同时可以再判断这个子卷热点卷,如果是热点数据将其自动迁移到固态盘,同时把固态盘的非热点回到光纤盘,此过程完全是自动的,不需要用户过多的干预就能够自动的层。Easy Tier 只支持两个存储层:SSD 一层,硬盘驱动器一层。IBM 的 Er 自动将各种类型的硬盘驱动器都划为较低的那一层。IBM Almaden 研究中心基于多级存储的体系结构提出了基于云环境的面向质的数据迁移,基本的迁移模型将迁移过程分为三个阶段[20]:一,了解判数据阶段。二,数据迁移阶段。三,优化阶段。图 2.2 为 IBM Almaden 研对三个阶段系统的响应时间所做的测试图。
【共引文献】
相关期刊论文 前6条
1 宋丽娜;戴华东;任怡;;基于海量数据存储系统多级存储介质的热点数据区分方法[J];计算机研究与发展;2012年S1期
2 张菁;任怡;廖湘科;;多级存储数据价值评定研究[J];计算机研究与发展;2012年S1期
3 吕帅;刘光明;徐凯;刘欣;;海量信息分级存储数据迁移策略研究[J];计算机工程与科学;2009年S1期
4 ZHANG GuangYan;QIU JianPing;SHU JiWu;ZHENG WeiMin;;AIP:a tool for flexible and transparent data management[J];Science China(Information Sciences);2013年05期
5 索传军;王涛;付光宇;;国内外信息生命周期管理研究综述[J];图书馆杂志;2008年07期
6 徐宝宇;廖涛;;分层存储中数据迁移时间的设计[J];计算机工程与设计;2013年02期
本文编号:2855151
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2855151.html