多数据中心环境中科学大数据应用执行优化机制的研究和实现
发布时间:2020-08-20 21:45
【摘要】:近年来,随着云计算和大数据等新兴技术的兴起,高能物理学、天体物理学、生物信息学等以数据为中心的科学领域开展的大型科学实验计算规模愈加庞大,产生和积累的科学数据量显著增长,对科学数据的分析挖掘更为复杂深入,是典型的科学大数据应用。科学大数据应用通常可建模成科学工作流,其执行所需的计算和存储资源规模庞大,需多个科研机构协作,聚合各自数据中心资源支撑科学大数据应用的海量数据存储和大规模科学工作流计算,实现多数据中心环境下科学工作流的分布执行。然而,由于各数据中心间网络带宽资源相对有限,科学工作流分布执行过程中跨数据中心的大量数据传输易成为性能瓶颈。作为影响跨数据中心数据传输的重要因素,数据合理布局和科学工作流任务高效调度可以有效减小数据中心间数据传输量,是提高科学工作流执行效率的关键。现有针对数据布局和工作流调度的研究,未全面考虑科学大数据应用关联数据访问、初始输入数据固定、海量中间数据存储等执行特征,无法实现数据合理布局和工作流任务高效调度,难以进一步优化科学大数据应用的执行。为实现多数据中心环境下科学大数据应用的执行优化,本硕士论文从以下三方面展开研究:首先,针对海量数据的布局优化进行研究。科学工作流在各数据中心的分布执行需以海量的初始数据作为输入,因此相关初始数据被各数据中心频繁请求访问。为了减小对初始数据的访问代价,本文在考虑数据放置本地性的基础上,引入数据访问模式特征以及数据中心存储等约束,将数据布局问题建模为整数规划问题,提出一种基于拉格朗日松弛的高效数据放置算法。然后,针对复杂科学工作流的任务调度优化进行研究。在初始数据合理布局的基础上,为了减小工作流执行过程中跨数据中心的数据通信,本文综合考虑科学工作流复杂依赖关系、初始输入数据预先放置、中间数据放置以及数据中心计算、存储限制等特征,对工作流调度问题进行建模,准确刻画科学工作流调度的特点。同时,根据模型提出了一个基于多层粗化、细化图划分框架并采用特殊混合遗传算法的启发式方法。最后,实现并部署科学大数据应用工作流管理系统。为了进一步验证本文提出的执行优化策略的有效性,本文基于现有的工作流管理系统进行二次开发,实现科学大数据应用执行的数据布局和工作流任务调度方法。同时基于东南大学云计算中心、曙光计算中心等多数据中心环境进行系统部署,验证本文研究成果的有效性。本文对多数据中心环境下科学大数据应用的执行优化机制进行深入研究,提出合理的数据布局方法和高效的工作流任务调度方法。通过大量的仿真实验和真实多数据中心环境实验表明,本文提出的优化策略能够有效减小科学工作流执行过程中跨数据中心的数据传输,实现科学大数据应用的执行优化。
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP308
【图文】:
子信息产生原始数据,原始数据经过大存储,供世界各地的科学家进行物理分具有以下特点:1)计算任务复杂。AM种物理分析等多步骤的复杂计算,这些和执行依赖关系的科学计算任务组成的、仿真数据、重建数据和物理分析结果4PB。3)计算规模大。AMS 实验包括蒙据统计,从 2011-2017 累计计算超过 6TB500TB2PB500TB400TB100TB数据分析据科学工作流数据布局工作流调度提交数据分析作业AMS科学家
其中 d 表示访问模式中包含数据的个数,任意一个访问模式 p∈P。如图3-1 所示,阐释了数据布局的过程。图中包含 10 个不同的数据集和 4 种访问模式:(1, 2),(3, 4, 5), (6, 7, 8), (9, 10)。数据和数据中心间的虚线表示将数据布局到该数据中心。科学数据集 X 被存储到多个异地分布的数据中心内,本文将数据中心集合表示为集合 K,集合大小为|K|。本文假设每个数据 x∈X 都只存储于一个数据中心内且占据数据中心存储资源 sizex,每个数据中心的存储容量也各不相同。为了与实际情况相符,本文假设数据中心 k∈K 的存储容量为 Ck,且存放在数据中心 k 的数据存储大小不超过 Ck。因此,数据到数据中心的映射函数可以定义为 M :x→k,表示数据 x 存储到数据中心 k 中。DC1 DC2 DC3Data itemRequest patternData centerRequest rateData DC mapping12345678910图 3-1 多数据中心环境中数据布局示意图在科学大数据应用的执行过程中
图 3-2 关联数据访问代价问代价比较算法的远程数据访问代价进行比较。各算法的代理。MostLocalized 算法获得最好的结果,因为据的量最大的数据中心内。由于被大量请求的
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP308
【图文】:
子信息产生原始数据,原始数据经过大存储,供世界各地的科学家进行物理分具有以下特点:1)计算任务复杂。AM种物理分析等多步骤的复杂计算,这些和执行依赖关系的科学计算任务组成的、仿真数据、重建数据和物理分析结果4PB。3)计算规模大。AMS 实验包括蒙据统计,从 2011-2017 累计计算超过 6TB500TB2PB500TB400TB100TB数据分析据科学工作流数据布局工作流调度提交数据分析作业AMS科学家
其中 d 表示访问模式中包含数据的个数,任意一个访问模式 p∈P。如图3-1 所示,阐释了数据布局的过程。图中包含 10 个不同的数据集和 4 种访问模式:(1, 2),(3, 4, 5), (6, 7, 8), (9, 10)。数据和数据中心间的虚线表示将数据布局到该数据中心。科学数据集 X 被存储到多个异地分布的数据中心内,本文将数据中心集合表示为集合 K,集合大小为|K|。本文假设每个数据 x∈X 都只存储于一个数据中心内且占据数据中心存储资源 sizex,每个数据中心的存储容量也各不相同。为了与实际情况相符,本文假设数据中心 k∈K 的存储容量为 Ck,且存放在数据中心 k 的数据存储大小不超过 Ck。因此,数据到数据中心的映射函数可以定义为 M :x→k,表示数据 x 存储到数据中心 k 中。DC1 DC2 DC3Data itemRequest patternData centerRequest rateData DC mapping12345678910图 3-1 多数据中心环境中数据布局示意图在科学大数据应用的执行过程中
图 3-2 关联数据访问代价问代价比较算法的远程数据访问代价进行比较。各算法的代理。MostLocalized 算法获得最好的结果,因为据的量最大的数据中心内。由于被大量请求的
【相似文献】
相关期刊论文 前10条
1 张乃帅;杜晓峰;;北京大学 数据中心迁移中的虚拟化力量[J];中国教育网络;2019年Z1期
2 ;浪潮存储获“用户满意数据中心解决方案”大奖[J];科技浪潮;2009年05期
3 ;云操作系统 云数据中心神经系统[J];科技浪潮;2011年03期
4 ;浪潮发布云海集装箱数据中心[J];科技浪潮;2011年03期
5 赵吉志;;浅谈数据中心绿色分级评估方法[J];科技浪潮;2012年05期
6 赵吉志;;数据中心效能评估指标简介[J];科技浪潮;2013年02期
7 ;云操作系统 云数据中心神经系统[J];科技浪潮;2011年S1期
8 ;浪潮推出云海集装箱数据中心[J];科技浪潮;2011年02期
9 ;浪潮“行业云”和云数据中心演示引人注目[J];科技浪潮;2011年02期
10 李卓晖;;电网企业数据中心能效测量与计算方法研究[J];南方能源建设;2018年04期
相关会议论文 前10条
1 杨羽虎;;甘肃省烟草专卖商业系统数据中心面临的安全风险及对策[A];中国烟草学会2016年度优秀论文汇编—— 信息化管理主题[C];2016年
2 关丽红;刘彦
本文编号:2798484
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2798484.html