面向双层云存储服务的在线成本优化算法研究
发布时间:2021-07-27 18:20
云存储有效地解决了当今时代大数据存储、访问的需求,开始为越来越多的用户提供服务。数据管理中,数据温度用于表示数据被访问的频率,通常称那些需要被计算节点频繁访问的在线类数据为热数据;而称访问频率较低、不需要实时访问的数据为冷数据。为了满足不同的存储服务要求,新一代的存储即服务(Storage As AService)云提供了不同的数据存储分层、分级选项,比如微软Azure云提供商提供了具有不同存储成本、访问延迟和访问成本特征的热访问层(简称热层)和冷访问层(简称冷层)的存储选择。在热层中存储数据会导致较高的存储成本,但同时会带来较低的访问成本和延迟,而冷层能够以较低的成本存储大量数据,从而提供较低的成本和较高的延迟。不同访问频率的数据存储到合适的层中能够很好地避免成本的浪费。一般来说,用户最初常将数据存储在热层,但是随着时间的消逝,数据的访问频率往往会发生变化,数据继续保持在热层的成本会相对存储在冷层较高。这时将数据转移到冷层,可以很好地利用冷层存储花费低的好处。然而,由于数据转移本身也是有费用的,如果用户将数据转移到冷层后数据访问再次变频繁,数据转移决策反而给用户带来了更多的花费。因此...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2-1?Azure的双层存储服务??将数据的生命周期分成r个长度为r的时间段,用价=1,2,3...?;〇表示,&和??
山东大学硕士学位论文??在其余时间很少被访问。第4组由均值大、标准差小的数据组成,该组数据访问??频繁,访问频率比较稳定。??〇?>1〇5?,??5?■??4?■??劣3?????■??运??????.???*??2?::?????????'??AS,?.??????I??0?1?2?3?4?5?6?7??均?ffi?^105??图3-1数据访问情况统计??本章实验中的所有成本计算都进行规一化处理,这里的1即为数据不改变当??前存储访问层的成本。因为我们的实验是对比使用在线算法对数据在其生命周期??中进行存储访问层改变与不改变数据当前存储现状的成本优化的性能。在我们的??实验中,增加了与离线算法的对比实验。本章前面已经给出了本文所使用的最优??离线算法求解问题的方式,即在数据未来访问频率己知的情况下通过动态规划递??归计算公式(3-1)求得成本的最小值。我们这里进行对比的离线算法并不一定是最??优的,因为这取决于我们选取统计数据访问情况的周期。??本文选取了微软Azure提供的四个具有代表性地区的冷热双层云存储服务??的收费模型,如表3-2所示。首先,我们使用微软Azure规定的美国中部地区的??定价标准进行实验,图3-2展示了本文提出的在线算法与离线算法的成本节约的??累积分布函数(CDF)。在实验过程中我们将最大决策周期心设置为40天。??本文从对分组数据进行实验的研究结果来看,本文总结了以下几点:如图3-??2中的“b”和“d”所示,可以看出对于频繁访问的数据,算法选择将数据继续??保留在热访问层。其次,一些数据在其生命周期中始终保存在当前存储访问层,??因此这些数据
山东大学硕士学位论文??做出存储访问层转变决策的时候高,则这部分数据的规范化成本大于1。从图3-??2中的“a”和“c”可以看出,对于访问次数一直较少的数据或者访问次数逐渐??减少的数据,该算法有效地节约了成本。从图3-2看出本文所提出的算法,为组??1中90%多的数据节省了成本,为组3中50%的数据节省了成本。因此,对于被??访问较为频繁的数据来说,存储在热访问层较为划算,而对于那些从一开始就访??问较少或者访问频率随着时间逐渐下降的数据则一开始就存储在冷访问层或者??转移到冷访问层较为划算。??08???|=3'??08?/?/?0.8??07?/?J??0.7????,/?/?.,丨?!??805?r?Q〇.s-?/??-0.4?y????03?0.3??〇2?02??7?■?L.?.?.__.__—J?7?.?..I..'??05?0.6?07?0.8?0.9?1?1.1?0.65?0.7?0.75?0.8?0.85?0?&?0?95?t?1.05?1,1?1.15??Normalized?Cost?Normalized?Cost??(a)?Cost?CDF?(第一组)?(b)?Cost?CDF?(第二组)??1??.???1?1???■->???1? ̄ ̄i?.??.?■ ̄??■■…OL?丨-??09?OFFj?'?0?9?'?OFF)????0.8?■?0.8?-????-?;-??0.7?■?Q.7?-??'0.6???0.6?-?-??g?0-5?■?一-?-_■圓■!?
【参考文献】:
期刊论文
[1]数据中心分层存储技术探究及实践[J]. 金斌,刘礼加. 中国金融电脑. 2016(05)
[2]基于模糊逻辑的数据分级存储模型研究[J]. 施光源,张宇. 计算机科学. 2013(S2)
[3]浅谈云存储技术的应用[J]. 王瑰琦. 电子制作. 2013(06)
[4]基于概率分布的局内特殊优惠卡问题及其竞争分析[J]. 辛春林,徐寅峰,马卫民. 系统工程理论与实践. 2007(10)
[5]住房租赁占线算法及其竞争策略[J]. 刘斌,崔文田,辛春林. 系统工程. 2007(06)
硕士论文
[1]面向云存储系统的绿色数据管理策略研究[D]. 董池.杭州电子科技大学 2015
[2]分布式文件存储系统副本管理方法研究[D]. 蒋浩.浙江大学 2013
本文编号:3306303
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2-1?Azure的双层存储服务??将数据的生命周期分成r个长度为r的时间段,用价=1,2,3...?;〇表示,&和??
山东大学硕士学位论文??在其余时间很少被访问。第4组由均值大、标准差小的数据组成,该组数据访问??频繁,访问频率比较稳定。??〇?>1〇5?,??5?■??4?■??劣3?????■??运??????.???*??2?::?????????'??AS,?.??????I??0?1?2?3?4?5?6?7??均?ffi?^105??图3-1数据访问情况统计??本章实验中的所有成本计算都进行规一化处理,这里的1即为数据不改变当??前存储访问层的成本。因为我们的实验是对比使用在线算法对数据在其生命周期??中进行存储访问层改变与不改变数据当前存储现状的成本优化的性能。在我们的??实验中,增加了与离线算法的对比实验。本章前面已经给出了本文所使用的最优??离线算法求解问题的方式,即在数据未来访问频率己知的情况下通过动态规划递??归计算公式(3-1)求得成本的最小值。我们这里进行对比的离线算法并不一定是最??优的,因为这取决于我们选取统计数据访问情况的周期。??本文选取了微软Azure提供的四个具有代表性地区的冷热双层云存储服务??的收费模型,如表3-2所示。首先,我们使用微软Azure规定的美国中部地区的??定价标准进行实验,图3-2展示了本文提出的在线算法与离线算法的成本节约的??累积分布函数(CDF)。在实验过程中我们将最大决策周期心设置为40天。??本文从对分组数据进行实验的研究结果来看,本文总结了以下几点:如图3-??2中的“b”和“d”所示,可以看出对于频繁访问的数据,算法选择将数据继续??保留在热访问层。其次,一些数据在其生命周期中始终保存在当前存储访问层,??因此这些数据
山东大学硕士学位论文??做出存储访问层转变决策的时候高,则这部分数据的规范化成本大于1。从图3-??2中的“a”和“c”可以看出,对于访问次数一直较少的数据或者访问次数逐渐??减少的数据,该算法有效地节约了成本。从图3-2看出本文所提出的算法,为组??1中90%多的数据节省了成本,为组3中50%的数据节省了成本。因此,对于被??访问较为频繁的数据来说,存储在热访问层较为划算,而对于那些从一开始就访??问较少或者访问频率随着时间逐渐下降的数据则一开始就存储在冷访问层或者??转移到冷访问层较为划算。??08???|=3'??08?/?/?0.8??07?/?J??0.7????,/?/?.,丨?!??805?r?Q〇.s-?/??-0.4?y????03?0.3??〇2?02??7?■?L.?.?.__.__—J?7?.?..I..'??05?0.6?07?0.8?0.9?1?1.1?0.65?0.7?0.75?0.8?0.85?0?&?0?95?t?1.05?1,1?1.15??Normalized?Cost?Normalized?Cost??(a)?Cost?CDF?(第一组)?(b)?Cost?CDF?(第二组)??1??.???1?1???■->???1? ̄ ̄i?.??.?■ ̄??■■…OL?丨-??09?OFFj?'?0?9?'?OFF)????0.8?■?0.8?-????-?;-??0.7?■?Q.7?-??'0.6???0.6?-?-??g?0-5?■?一-?-_■圓■!?
【参考文献】:
期刊论文
[1]数据中心分层存储技术探究及实践[J]. 金斌,刘礼加. 中国金融电脑. 2016(05)
[2]基于模糊逻辑的数据分级存储模型研究[J]. 施光源,张宇. 计算机科学. 2013(S2)
[3]浅谈云存储技术的应用[J]. 王瑰琦. 电子制作. 2013(06)
[4]基于概率分布的局内特殊优惠卡问题及其竞争分析[J]. 辛春林,徐寅峰,马卫民. 系统工程理论与实践. 2007(10)
[5]住房租赁占线算法及其竞争策略[J]. 刘斌,崔文田,辛春林. 系统工程. 2007(06)
硕士论文
[1]面向云存储系统的绿色数据管理策略研究[D]. 董池.杭州电子科技大学 2015
[2]分布式文件存储系统副本管理方法研究[D]. 蒋浩.浙江大学 2013
本文编号:3306303
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3306303.html