多数据中心环境中数据密集型科学工作流的执行优化研究
本文关键词:多数据中心环境中数据密集型科学工作流的执行优化研究,,由笔耕文化传播整理发布。
【摘要】:随着大数据(Big Data)时代的到来,越来越多的科学实验面临海量数据处理问题,这些数据处理包含多个步骤且过程复杂,通常可建模成数据密集型科学工作流。数据密集型科学工作流数据处理规模极其庞大,一般需要分布在多个数据中心的计算和存储资源,以实现对数据密集型科学工作流执行的有效支撑。其中,AMS实验数据处理和分析作为一个典型的数据密集型工作流应用,也是将其海量的数据和计算任务分布到全球不同地区的多个数据中心进行处理。然而,对于数据密集型科学工作流而言,其在多数据中心中的执行所引发的执行效率问题也日益突出。一方面,数据密集型科学工作流处理的数据量很大,数据往往分布在多个数据中心;另一方面,工作流任务可能以多个数据中心的数据作为输入,往往需要通过网络传输获取相关数据。由于数据中心间的网络带宽有限,跨数据中心间的海量数据传输成为影响数据密集型科学工作流高效执行的关键因素。高效的数据管理和任务调度算法是实现数据密集型科学工作流在多数据中心环境中执行优化的关键。针对工作流海量初始数据在数据中心间的传输问题,现有的工作主要基于数据相关性进行聚类放置,未考虑数据量大、相关性较弱的数据集,无法高效地减少初始数据的传输。针对大量中间数据在数据中心间的传输问题,现有的研究工作主要采用简单任务复制和数据多副本存储来解决,导致运行效率和资源利用率较低。因此,现有的工作无法有效地实现数据密集型科学工作流在多数据中心环境中高效执行目标,需在深入考虑数据密集型科学工作流执行特点基础上提出新的高效调度算法和策略。为此,本文从以下四个方面展开研究:首先,针对跨数据中心间的海量初始数据传输问题,考虑数据相关性的同时考虑数据集大小因素,提出初始数据聚类放置策略,实现高内聚数据放置。其次,针对跨数据中心间的中间数据传输问题,考虑数据与任务间的关系,提出多级任务复制算法,实现数据的本地性获取,减少中间数据的传输。再次,针对数据传输和任务执行串行化问题,提出数据预放置策略,将数据传输操作和任务运行分离,实现数据传输和任务运行的并行执行。最后,在理论研究基础上,结合东南大学云数据中心环境实现了多数据中心环境中科学工作流调度系统。基于东南大学AMS实验应用数据对系统各个模块进行性能测试以验证理论研究的有效性。本文对数据密集型科学工作流在多数据中心环境中的执行优化机制进行了深入研究,通过相应的仿真实验以及在东南大学云数据中心真实环境中进行实验表明,本文提出的相关算法和调度优化方案,能够有效地减少数据中心间的数据传输和任务等待数据传输时间,提高科学工作流执行效率。
【关键词】:云计算 多数据中心 数据密集型科学工作流 多级任务复制 数据预放置
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP308
【目录】:
- 摘要4-5
- ABSTRACT5-12
- 第1章 引言12-20
- 1.1 研究背景12-14
- 1.2 研究动机14-16
- 1.3 论文研究目标16
- 1.4 论文研究内容16-17
- 1.5 论文组织结构17-20
- 第2章 研究现状20-24
- 2.1 多数据中心环境中科学工作流初始数据放置现状20-21
- 2.2 多数据中心环境中科学工作流多级任务复制现状21
- 2.3 多数据中心环境中科学工作流数据预放置现状21-22
- 2.4 本章小结22-24
- 第3章 基于聚类策略的初始数据放置机制24-34
- 3.1 引言24
- 3.2 科学工作流DAG模型理论24-25
- 3.3 初始数据多维向量模型25-27
- 3.4 基于K-means聚类模型27-29
- 3.5 实验与分析29-33
- 3.5.1 实验设置29-30
- 3.5.2 实验结果30-33
- 3.6 本章小结33-34
- 第4章 基于多级任务复制策略的任务调度优化34-42
- 4.1 引言34
- 4.2 任务复制理论34-36
- 4.3 基于多级任务复制策略的任务调度模型36-38
- 4.4 实验与分析38-41
- 4.4.1 实验设置39
- 4.4.2 实验结果39-41
- 4.5 本章小结41-42
- 第5章 基于数据预放置策略的任务调度优化42-48
- 5.1 引言42
- 5.2 科学工作流数据预放置框架模型42-43
- 5.3 数据预放置算法设计43-45
- 5.4 实验与分析45-47
- 5.4.1 实验设置45
- 5.4.2 实验结果45-47
- 5.5 本章小结47-48
- 第6章 多数据中心环境中工作流调度系统设计与实现48-66
- 6.1 引言48
- 6.2 MDC-SWMS系统设计与实现48-53
- 6.2.1 MDC-SWMS系统总体设计49
- 6.2.2 MDC-SWMS的功能模块49-52
- 6.2.3 MDC-SWMS系统部署52-53
- 6.3 MDC-SWMS调度系统实现和功能测试53-65
- 6.3.1 测试环境54
- 6.3.2 MDC-SWMS系统部署和基本功能测试54-63
- 6.3.3 MDC-SWMS系统性能测试63-65
- 6.4 本章小结65-66
- 第7章 总结与展望66-68
- 7.1 论文总结66-67
- 7.2 展望67-68
- 参考文献68-72
- 致谢72-74
- 作者在攻读硕士学位期间相关研究工作74-76
- 作者简历76
【相似文献】
中国期刊全文数据库 前10条
1 李红信,范玉顺;分布式工作流执行服务的设计与实现[J];计算机工程与应用;2003年24期
2 刘向前,王晓琳,曾广周;基于协调机制的多工作流过程合并方法[J];计算机工程;2003年02期
3 覃俊,康立山,陈毓屏,吴仁杰;远程工作流的安全机制[J];计算机应用研究;2003年07期
4 吴世贵;浅谈工作流技术[J];建材技术与应用;2003年05期
5 李红玲,朱锦泉;基于工作流技术图书馆自动化管理系统的设计与实现[J];长春理工大学学报;2005年02期
6 ;你工作流了吗?[J];软件世界;2006年23期
7 苏军;薛顺利;李尊朝;;工作流项目的代理安全机制[J];西安工程科技学院学报;2006年06期
8 付伟;;工作流技术综述[J];河北北方学院学报(自然科学版);2007年01期
9 李燕;冯玉强;;工作流挖掘:一种新型工作流自动化建模方法[J];计算机工程;2007年04期
10 杨洪波;;工作流:三分天下[J];软件世界;2007年10期
中国重要会议论文全文数据库 前10条
1 常群;王海洋;;基于长短事务分离的工作流事务模型[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 马帅;王海洋;王文;;事务工作流及其错误处理策略[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
3 刘庆;刘英博;王建民;;基于工作流日志的层次化角色挖掘[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
4 袁征;肖宇;;基于事例处理的工程项目工作流管理[A];土木建筑学术文库(第12卷)[C];2009年
5 王飞;李郴;薛清龙;胡晓鑫;;基于工作流技术的银行影像系统的研究和开发[A];煤矿自动化与信息化——第19届全国煤矿自动化与信息化学术会议暨中国矿业大学(北京)百年校庆学术会议论文集[C];2009年
6 刘建勋;陈海燕;;工作流管理系统中基于组织结构约束的授权研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
7 魏连;许榕生;;基于工作流技术的手机取证系统的设计与实现[A];第13届全国计算机、网络在现代科学技术领域的应用学术会议论文集[C];2007年
8 寿志勤;李乐明;崇大志;;一个面向政务流程的工作流管理系统分析与构建[A];中国行政管理学会2005年年会暨“政府行政能力建设与构建和谐社会”研讨会论文集[C];2005年
9 邹盟军;黄炜;;基于组件的工作流管理平台的设计与实现[A];广东省电机工程学会2003-2004年度优秀论文集[C];2005年
10 张博;杨帆;;基于表单的工作流管理系统设计[A];第十四届中国科协年会第5分会场:绿色船舶与海洋装备创新发展及产业化论坛论文集[C];2012年
中国重要报纸全文数据库 前10条
1 何进伟;还工作流管理一个说法[N];中国计算机报;2003年
2 徐昊;工作流是下一个“金矿”[N];中国计算机报;2003年
3 ;《工作流管理——模型、方法和系统》出版[N];中华读书报;2004年
4 胡长城;工作流:国内国际两极分化[N];计算机世界;2007年
5 工作流资深专家 游青华;如何选择一个适合的工作流平台[N];中国计算机报;2007年
6 刘喜喜;超越工作流管理[N];中国计算机报;2006年
7 ;北京商能 实现电子化工作流体系[N];中国计算机报;2009年
8 刘锬;Lotus Domino/Notes工作流在办公自动化中的应用[N];计算机世界;2005年
9 蒋明炜 戴宝纯 吴英;工作流管理使企业系统实现集成[N];中国乡镇企业报;2004年
10 沈建苗 编译;基于Spring创建工作流引擎[N];计算机世界;2006年
中国博士学位论文全文数据库 前3条
1 王朝霞;数据感知工作流的建模与验证[D];清华大学;2012年
2 卢伟倬;建设项目工作流精益管理研究[D];哈尔滨工业大学;2008年
3 杨晓辉;基于服务组织的开放Agent社会研究[D];天津大学;2012年
中国硕士学位论文全文数据库 前10条
1 侯美玲;基于工作流技术的管理信息系统开发研究[D];太原理工大学;2006年
2 颜超;基于工作流技术的税务管理系统的设计与实现[D];上海交通大学;2015年
3 吴伯然;基于工作流的电网公司党务管理系统的设计与实现[D];山东大学;2015年
4 朱星镇;基于J2EE和工作流技术的质量管理系统设计与开发[D];电子科技大学;2013年
5 荣钰;基于工作流的政府行政审批平台的设计与实现[D];电子科技大学;2014年
6 蒙焕;面向财务共享服务中心的财务报账系统设计与实现[D];上海交通大学;2014年
7 彭德安;面向SAP的备件分配和下单软件的设计与实现[D];上海交通大学;2014年
8 李佳;面向云工作流的切片与调度方法[D];大连理工大学;2015年
9 戴洁;异构系统多工作流在线调度算法研究[D];大连理工大学;2015年
10 陈征;通信感知的DAG工作流费用优化模型及算法[D];大连理工大学;2015年
本文关键词:多数据中心环境中数据密集型科学工作流的执行优化研究,由笔耕文化传播整理发布。
本文编号:265953
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/265953.html