当前位置:主页 > 科技论文 > 计算机论文 >

多云环境下最小成本数据存储问题研究

发布时间:2020-05-20 11:25
【摘要】:近年来云计算的发展给用户提供了按需、灵活、低成本以及可扩展的应用部署方式,市面上出现了许多云服务提供商,如阿里云、AWS及Azure等。这种“多云”共存的环境使得用户能够方便灵活地利用多个云服务提供商来部署运行他们的应用以达到降低成本、提高服务质量等目的。由于云计算的这些特点,越来越多的数据密集型应用(如天文大数据)也开始利用云计算提供的海量计算和存储资源来进行部署及运行,这类应用通常包含复杂的工作流,通过工作流中许多复杂任务来对数据进行一步一步的处理并产生大量的具有依赖关系的数据。然而,由于云计算按需付费的使用方式,这些数据存储在云中会产生极高的存储成本,而如果将所有生成的数据删除,数据在被重新使用时需要从原始数据开始生成,则会产生很高的计算成本,不仅如此,不合理的数据存储方式也会对云计算资源造成极大的浪费,这些问题给数据密集型应用在云中的部署运行带来巨大挑战。因此,一个合理的数据存储和放置策略不仅能为用户节省大量的成本,而且能够降低云计算资源的浪费。针对以上问题,本文首先使用数据依赖图(Data Dependency Graph,DDG)对应用中数据间的依赖关系进行建模,以及研究数据存储策略和应用运行总成本之间的关系,并深入研究多云环境下最小成本数据存储算法。我们根据数据的依赖关系的特点将数据依赖图分为线性数据依赖图(linear-DDG)和复杂数据依赖图(complex-DDG),然后分别研究其最小成本数据存储算法。具体来说,1)针对linear-DDG,提出一个具有线性时间复杂度的数据存储算法(linear-PCE)。linear-PCE算法针对云环境中过长的数据生成过程会导致计算成本快速增长的问题,使用动态规划算法以及起源数据候选集约简规则,快速地找到每个数据的最优起源数据,最后通过反向遍历最优起源数据,即可获得最小成本数据存储策略。与此同时,linear-PCE使用增量计算大大降低了算法的时间复杂性。2)针对多云环境下具有复杂数据依赖关系的数据存储问题,本文提出了一个高效的复杂依赖关系多云数据存储算法(PCE)。PCE算法通过为数据依赖图中的分支指定起源数据,以及为合并分支中的数据寻找最优起源数据组合,能够计算出复杂数据依赖关系的最小成本数据存储策略。PCE算法利用数据依赖图的线性子图具有多项式种最优存储策略,通过保存算法运行的中间结果以重用可以快速地计算出最小成本数据存储策略。本文以天文为背景在实际的天文应用中进行方法的验证,根据实际天文大数据应用中的数据依赖关系、数据大小以及任务的执行时间构造真实的数据依赖图,使用现有主流云服务提供商所使用的定价模型生成的云服务提供商来模拟运行天文大数据应用,结果表明本文算法得到的数据存储策略能够大大降低应用运行的成本,节省云服务提供商的云计算资源。另外本文基于模拟数据进行了大量的实验,结果表明,对于具有线性数据依赖关系的数据存储问题,本文的算法都能高效地找出最小成本数据存储策略。
【图文】:

工作流图,脉冲星,工作流,最小成本


第3章多云环境下最小成本数据存储问题逡逑本章首先介绍云环境下真实的数据密集型科学应用“天体物理领域中的脉冲逡逑星搜寻应用”,通过案例来研究云环境下数据存储所面临的问题。然后本章进一步逡逑介绍最小成本数据存储问题相关定义并对云环境下的最小成本数据存储问题进行逡逑建模。逡逑3.1多云环境下数据管理案例描述逡逑斯威本大学天体物理小组一直在利用世界上最著名的射电望远镜之一帕克斯逡逑射电望远镜1的观测数据进行脉冲星搜寻。脉冲星搜寻是一种典型的科学应用,它逡逑包含复杂且耗时的任务,需要处理数兆字节的数据。图3-1描述了在脉冲星搜寻工逡逑作流的总体结构。脉冲星搜索过程有三个主要步骤:逡逑

算法,原理,文献,存储策略


及其指向数据的成本率之和,通过求解最短路径问题,我们可以得到数据依赖图的逡逑最低成本数据存储策略,最短路径的长度对应数据的最小总成本率。逡逑图4-2所示的实验结果表明,我们的算法始终可以在1秒内完成,而GT-CSB逡逑算法的运行时间随着数据数量的增加而显著增加。逡逑100邋逦邋1000邋逦—^逡逑—PCE逡逑^邋.邋100邋-逡逑f逦10逦-邋—GT-CSBs逡逑P逦.S逦10逦—PCE逡逑?I逦=逦—邋GT-CSB逡逑I逦I逦1逡逑01逦'逦^逦0.1邋-逡逑.—逦一'邋'逡逑0.01邋<= ̄ ̄ ̄ ̄^逦■邋1邋—邋1逦邋0.01邋逦1逦1逦1逦逡逑100逦200逦300逦400逦500逦100逦200逦300逦400逦500逡逑(a)不同的数据集数量(3个云服务商)逦(b)不同的数据集数量(10个云服务商)逡逑图4-2不同设置下lmear-PCE算法和GT-CSB算法的性能比较逡逑在接下来的实验中,基于我们根据文献[44]提出的原理,我们设计了一种方法,逡逑可以找到局部最小成本存储策略,而不用找到全局的最小成本存储策略,,这样能够逡逑使用较短的时间找到整体较低成本数据存储策略。该方法将划分为若干个大逡逑小相同的线性片段,并利用GT-CSB和线性PCE算法分别为每个片段寻找局部最逡逑优数据存储策略。这个实验中我们使用一个有500个数据的DZ)G,并将其均等划逡逑分为有不同数量数据的DDG片段。图4-3显示了不同片段长度情况下的linear-逡逑PCE算法和GT-CSB算法的运行时间,结果显示linear-PCE算法仍然超过GT-CSB逡
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP333

【相似文献】

相关期刊论文 前10条

1 李维佳;;智慧城市中大数据存储与分析技术探索[J];数字通信世界;2019年06期

2 丁茜;;云计算在移动社交中的应用研究[J];中小学电教;2017年06期

3 仲盛;;特约主编寄语[J];南京信息工程大学学报(自然科学版);2017年05期

4 冯英伟;王庆福;吉高卿;;云计算环境下高校网络教学资源数据存储研究[J];信息与电脑(理论版);2016年03期

5 郑盛姣;;简单的数据修复[J];文理导航(中旬);2017年01期

6 黄浩星;;空间高效的分布式数据存储方案[J];数码世界;2017年11期

7 崔志敏;黄斌;周利宏;;PACS数据存储方案和安全性策略[J];实用医技杂志;2006年20期

8 郑士贵;数据存储的全面管理[J];管理科学文摘;1997年09期

9 本刊编辑部;;《高密度光学数据存储材料》通过鉴定[J];光电子.激光;1988年06期

10 姜天海;;新技术让数据存储时间逼近“永恒”[J];科学新闻;2017年01期

相关会议论文 前10条

1 孙峥皓;汪宏f;阎岩;岑小锋;邓志均;;浅谈信息化战争对大数据存储与分析的要求及对策[A];2013第一届中国指挥控制大会论文集[C];2013年

2 叶代亮;孔晓峰;;金华电业局数据存储整合方案[A];2006电力行业信息化年会会议论文集[C];2006年

3 张沁川;王厚军;;基于大容量闪存的数据存储与管理[A];2008中国仪器仪表与测控技术进展大会论文集(Ⅲ)[C];2008年

4 陶春峰;詹仕凡;李磊;万忠宏;赵佳瑜;;多频解释软件的数据存储与显示[A];2018年中国地球科学联合学术年会论文集(二十三)——专题47:油气田与煤田地球物理勘探[C];2018年

5 韦大伟;;分布式数据存储中的机密性保护[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年

6 ;Wallstor网络数据存储的新技术应用[A];江苏省微型电脑应用协会产学研成果交流会会议资料[C];2010年

7 黄建平;;“云”中的卫星数据中心——互联网+卫星数据存储与计算[A];中国地球物理学会信息技术专业委员会“互联网+地球物理”研究论坛论文摘要集[C];2016年

8 林良帆;邓雪原;;BIM数据存储标准与集成管理研究现状[A];计算机技术在工程设计中的应用——第十六届全国工程设计计算机应用学术会议论文集[C];2012年

9 丛雪松;段智敏;;WinCC脚本在数据存储中的应用[A];中国计量协会冶金分会2009年年会论文集[C];2009年

10 霍跃华;;IP SAN在煤炭企业数据存储的应用研究[A];煤矿自动化与信息化——第20届全国煤矿自动化与信息化学术会议暨第2届中国煤矿信息化与自动化高层论坛论文集[C];2010年

相关重要报纸文章 前10条

1 本报记者 陈方耀;提供数据存储新方案 筑就新经济“生态湖”[N];成都日报;2019年

2 ;企业优化数据存储的启示[N];中国信息化周报;2018年

3 本报记者 杨雪;光学大数据存储:更快,更久,更绿色[N];科技日报;2018年

4 本报记者 衣琼;打造安全的数据存储与金融风控平台[N];贵阳日报;2017年

5 沈建苗 编译;数据存储准备好迎接人工智能了吗?[N];中国计算机报;2017年

6 四川文理学院 刘瑜;借力大数据优化图书馆数据存储[N];中国信息化周报;2017年

7 记者 邸继勇;深企创新DPU 有望颠覆CPU[N];深圳特区报;2017年

8 中国电信股份有限公司广州研究院 赖培源;海量冷数据存储关键技术[N];人民邮电;2016年

9 本报记者 郭涛;澄清大数据存储[N];中国计算机报;2014年

10 本报驻美国记者 管克江;云计算抬高数据存储公司身价[N];人民日报;2010年

相关博士学位论文 前10条

1 蔚赵春;无线传感器网络中自适应数据存储与kNN查询处理研究[D];复旦大学;2008年

2 付松龄;分布式在线社交网络数据存储及优化技术研究[D];国防科学技术大学;2014年

3 郝行军;物联网大数据存储与管理技术研究[D];中国科学技术大学;2017年

4 宋亚奇;云平台下电力设备监测大数据存储优化与并行处理技术研究[D];华北电力大学(北京);2016年

5 解炜;射频识别系统安全协议研究[D];国防科学技术大学;2014年

6 樊华;面向物联网的RFID不确定数据清洗与存储技术研究[D];国防科学技术大学;2013年

7 高超;无线传感器网络数据存储算法与应用技术研究[D];华中科技大学;2012年

8 汤启云;模板诱导的嵌段共聚物和纳米粒子自组装[D];南京大学;2011年

9 李芳芳;无线传感器网络实时数据管理关键技术研究[D];东北大学;2008年

10 刘健;模糊XML数据存储与查询技术的研究[D];东北大学;2014年

相关硕士学位论文 前10条

1 龚蓉军;基于云计算的轿车道路试验数据存储与分析[D];上海交通大学;2017年

2 温振蕙;基于HBase的大数据存储优化设计与性能分析[D];中北大学;2019年

3 张俊华;多云环境下最小成本数据存储问题研究[D];山东大学;2019年

4 宁峰;基于Redis的RDF数据存储及性能分析[D];云南大学;2017年

5 贾启航;基于TMS320C6000的自容式数据存储与处理平台[D];哈尔滨工程大学;2018年

6 杨子孺;基于Dubbo技术的微课平台设计与实现[D];湖南大学;2018年

7 仇红剑;大规模RDF语义数据存储查询优化与系统实现[D];南京大学;2015年

8 赖文亮;电子关锁系统设计与实现[D];哈尔滨工业大学;2018年

9 庄园;基于投影再生码的自适应分布式数据存储方法[D];西安电子科技大学;2018年

10 梁胜昔;云环境下大数据存储副本策略的优化研究[D];南京邮电大学;2018年



本文编号:2672548

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2672548.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户068e5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com