数据共享型科学云工作流的数据布局策略研究
本文关键词:数据共享型科学云工作流的数据布局策略研究,,由笔耕文化传播整理发布。
【摘要】:科学工作流是一种基于数据驱动的数据密集型和计算密集型工作流,能够自动化处理用户的业务需求。正因为其能够科学的管理、传输、分析、模拟并通过可视化手段来帮助科研人员进行科学研究,科学工作流己在众多科学研究领域中被广泛使应用,如高能物理、气象预测、生命信息等科学领域。伴随着信息技术的长足发展,云计算正逐渐成为下一代的信息技术平台。云计算服务提供商可以通过互联网以计费的方式为用户提供海量、廉价、动态的计算、存储和网络资源。云计算平台所具有的高性能、可扩展和弹性的计算模式大幅降低了研究机构、企业和政府构建业务系统所需的资金门槛和资源成本,为执行数据密集型工作流系统提供了理想的运行环境。因此,基于云计算的科学工作流管理系统己成为学术界和工业界研究和应用的一个热点。虽然科学云工作流数据管理拥有与生俱来的优势,但其数据布局管理在“大数据”时代中仍面临诸多挑战。科学云工作流通常由多个不同的科研机构、院校、企业、政府部门的研究小组、团队共同合作开展的,工作流内部、之间普遍存在数据共享和交互现象,对于“大数据”时代中海量数据所具有的隐私性、共享性、阶段性,云数据中心具有的多用户性、多任务性,云服务的动态性和不确定性等特点,数据共享型工作流数据布局研究变得尤为重要。学术界已有一些研究致力于优化数据在云数据中心中的存储,但其所获得的数据布局方案大多基于数据和任务之间的依赖关系,既没有充分考虑到工作流中数据的不同属性对布局的影响,又没有对工作流之间的数据共享对数据布局的影响程度进行细致研究。在已有对工作流数据布局研究基础上,本文总结传统数据布局策略,并命名为任务层数据布局策略;对数据共享型科学工作流的数据布局进行深入研究,设计出一种工作流层数据布局策略。它通过优化工作流布局框架、模型和细化工作流的数据类型,并采用基于粒子群优化算法的两个阶段数据布局方法来优化数据布局方案,以降低工作流执行时的数据传输费用。本文的主要工作和创新点具体如下:1.针对工作流系统中的数据、任务和存储资源,研究不同属性数据与数据之间,数据与任务之间,任务与任务之间的依赖关系,以及数据在数据中心的存储情况。科学工作流是一种数据密集型业务流程,任务在执行时需要大量的相关数据,因此会和数据形成一种多对多的关系。工作流中的数据可划分成多种类型,如初始数据(或原始数据)、生成数据(或中间数据)、隐私数据、共享数据、固定数据等等。由于工作流业务流程的灵活多变,导致其数据和任务之间的关系十分复杂,并且出于安全等因素考虑,这些相关数据和任务往往被存储于多个云数据中心。因此本文会系统的分析、归纳数据类型,理清数据和任务的依赖关系,方便对后续工作流布局框架和数据布局模型的整合与优化。2.结合已有数据布局研究,总结出传统的任务层(Task-Level)数据布局模型,给出相关定义和数据传输计费模型。已有的一些云工作流数据布局模型过于抽象,且主要研究科学云工作流在执行过程中的数据传输次数、数据传输量和数据传输时间。虽然这些参数能够表征数据布局方法的性能优劣,但用户最关心的是工作流在云平台中运行所产生的花费。本文根据工作流的不同数据类型,系统的建模云工作流,分析工作流内部的数据共享现象,并从用户角度出发,通过建模工作流数据传输费用模型来获得工作流执行时的数据传输费用,衡量布局方法性能优劣。3.针对任务层数据布局模型不足,提出一种工作流层Workflow-Level)数据布局框架、传输计费模型来优化布局方案,降低数据传输费用。科学云工作流是一种多用户协作的业务流程,其任务在执行过程中往往需要多个不同的科研机构、院校、企业甚至政府部门之间的分工协作。不仅工作流内部之间存在数据共享,多个工作流之间也存在数据共享现象,如相同数据会被用于不同的研究方向,导致不同工作流间存在数据共享现象。任务层数据布局模型孤立的布局每个工作流,并没有考虑工作流之间的共享数据集,且数据布局的灵活性低,导致工作流总体数据开销大。为此,本项目从共享数据出发,通过分析、整合工作流布局框架,研究基于数据依赖的共享型工作流框架,将存在数据共享的多个工作流整合成一个工作流,从工作流层研究数据布局计费模型,优化数据布局方案,降低传输费用。4.结合云工作流的生命周期和数据的不同属性,为数据共享型科学云工作流设计出一种两个阶段的数据布局方法,该布局方法通过调用离散型粒子群优化数据布局算法(Discrete Particle Swarm Optimization Data Placement Algorithm,DPSO-DPA),对不同阶段、不同属性的数据进行布局优化。云工作流的数据布局是一个NP难问题,目前有两大类布局方法用于求解数据布局:聚类方法和智能方法,且主要研究工作流在执行过程中的数据传输次数、传输时间和传输费用。聚类方法通常基于数据中心的负载均衡,利用数据之间的依赖关系,将数据划分成几个独立的数据块,然后将这些数据块布局到数据中心。在实际的云环境中,云数据中心的容量近乎无限,根本不需要考虑数据存储会导致云数据中心过载。智能方法则能够根据云工作流和用户的具体需求,提供适应性强的数据布局方案。粒子群优化方法属于智能方法,因其具有参数少、计算成本低、收敛快、求解效率高等特点被广泛应用于函数优化、任务调度、数据布局等领域。工作流层数据布局策略包括两个阶段,构建阶段(Build-Time)和运行阶段(Runtime)。在工作流构建阶段布局初始数据,并调用本文设计的DPSO-DPA算法获得初始灵活数据的布局方案;在运行阶段调用DPSO-DPA算法获得生成灵活数据的布局方案。通过整合两个阶段,获得整个工作流的最终数据布局方案。本文总结了传统任务层数据布局策略,分析工作流的数据共享现象,提出一种数据共享型云工作流布局框架、数据布局模型,设计面向工作流层的数据传输代价模型、离散型粒子群布局算法。通过使用两个阶段的数据布局方法,获得数据布局方案。实验表明,本文的数据布局方法鲁棒性最强,性能最优,得到的布局方案传输费用也最低。
【关键词】:云计算 科学工作流 数据共享 数据布局 粒子群优化
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.09
【目录】:
- 摘要3-6
- ABSTRACT6-12
- 第一章 绪论12-24
- 1.1 引言12-16
- 1.1.1 课题研究背景12-13
- 1.1.2 研究目的与意义13-16
- 1.2 国内外研究现状16-19
- 1.2.1 科学云工作流管理系统17-18
- 1.2.2 商业云工作流管理系统18
- 1.2.3 云工作流数据布局概述18-19
- 1.3 论文研究内容19-22
- 1.4 论文组织结构22-23
- 1.5 本章小结23-24
- 第二章 科学工作流数据布局相关研究24-28
- 2.1 本地硬盘存储环境下的数据布局24-25
- 2.2 传统分布式环境下的数据布局25
- 2.3 云计算环境下的数据布局25-27
- 2.4 本章小结27-28
- 第三章 任务层数据布局模型28-36
- 3.1 工作流相关定义28-30
- 3.2 任务层问题分析30-33
- 3.2.1 任务层问题分析30-31
- 3.2.2 任务层数据传输计费模型31-32
- 3.2.3 数据布局开销分析32-33
- 3.3 任务层数据传输计费模型33-35
- 3.4 本章小结35-36
- 第四章 工作流层数据布局模型36-45
- 4.1 数据共享36-37
- 4.2 共享型云工作流相关定义37-38
- 4.3 工作流层问题分析38-41
- 4.3.1 工作流层数据布局过程39-40
- 4.3.2 数据布局开销分析40-41
- 4.4 工作流层云工作流布局框架41-42
- 4.5 工作流层数据布局传输计费模型42-44
- 4.6 本章小结44-45
- 第五章 共享型科学云工作流数据布局策略45-52
- 5.1 基于离散粒子群优化的数据布局算法45-49
- 5.1.1 离散型粒子群优化算法45-46
- 5.1.2 适应值函数46-47
- 5.1.3 数据布局算法47-49
- 5.2 两个阶段数据布局方法49-51
- 5.2.1 构建阶段49-50
- 5.2.2 运行阶段50-51
- 5.3 本章小结51-52
- 第六章 实验52-65
- 6.1 仿真策略52-53
- 6.2 实验设置53-54
- 6.3 实验结果54-64
- 6.3.1 特定工作流布局结果54-56
- 6.3.2 一般工作流布局结果56-63
- 6.3.3 布局结果分析63-64
- 6.4 本章小结64-65
- 第七章 总结与展望65-67
- 7.1 总结65-66
- 7.2 展望66-67
- 参考文献67-76
- 致谢76-77
- 攻读硕士学位期间发表的学术论文77-78
- 附录A:图索引78-79
- 附录B:表索引79-80
- 附录C:工作流任务子结构80
【相似文献】
中国期刊全文数据库 前10条
1 李华,李燕,姚文琳;工作流管理[J];山东轻工业学院学报(自然科学版);2000年04期
2 刘建勋,李仁发,张申生;工作流管理系统及其在邮电号线管理中的应用[J];计算机工程与应用;2001年18期
3 汪涛,吴耿锋,黄力芹;工作流管理的现状和未来趋势[J];小型微型计算机系统;2001年02期
4 汪涛,黄力芹,吴耿锋;工作流管理的发展历程和趋势[J];计算机工程与科学;2001年01期
5 罗海滨,范玉顺,吴澄;工作流合理性验证中的事件平衡分析[J];软件学报;2002年08期
6 周尊国 ,田伟;工作流管理系统在电力企业管理信息系统中的应用[J];山东电力技术;2002年02期
7 黄钧 ,范永全 ,郭勇;工作流管理系统在建设项目管理中的应用[J];微型机与应用;2002年09期
8 张志君,范玉顺;一种高性能的分布式工作流系统实现框架[J];计算机集成制造系统-CIMS;2003年06期
9 赵卫东,戴伟辉;基于角色的跨组织工作流研究[J];系统工程与电子技术;2003年08期
10 曾颖;工作流技术在电信行业中应用的探讨[J];福建电脑;2005年05期
中国重要会议论文全文数据库 前10条
1 卓蔚;陈思;张侃弘;;工作流管理技术浅谈——如何实现企业业务信息化的工作流管理[A];上海烟草系统2002年度学术论文选编[C];2002年
2 李晖;王海洋;王文;;面向事务的工作流活动模型[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 连杰鑫;刘家茂;顾宁;;基于协作依赖的工作流过程优化[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
4 李新;薛永生;;可重构工作流系统设计方法研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 叶寿生;汪涛;郭永林;;LTFP intelliFlow~汶工作流管理系统[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 冯波;徐建良;;支持动态变化的工作流元模型的研究与应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 丁华;王秀坤;周永晖;;基于改进移动模型的迁移工作流研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
8 崔立真;王海洋;;基于主动过程视图的工作流管理和监控[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 欧阳青;;工作流技术在高校教育管理系统中的应用研究[A];第十八届玻璃钢/复合材料学术年会论文集[C];2010年
10 吕刚;王坚;严隽薇;董志斌;;工作流技术及其在制造企业中的应用研究[A];第二十届中国控制会议论文集(下)[C];2001年
中国重要报纸全文数据库 前10条
1 庄志澄;成功实施工作流管理系统[N];中国计算机报;2003年
2 中国石油勘探开发研究院西北分院 柏东明 曾丽花 郭以东;定制企业工作流服务[N];计算机世界;2011年
3 中国建设银行湖北分行信息技术部李涛、娄国伟、曾钦祥、吴安平、童海涛;实现多任务域工作流[N];计算机世界;2004年
4 王沛霖;驾驭流程 创造价值[N];中国计算机报;2004年
5 李农、张京辉;客服中心上档次依赖工作流管理系统[N];中国计算机报;2002年
6 何吟;“行业”标签让SunFlow更醒目[N];计算机世界;2004年
7 优利系统(中国)有限公司 倪佳;影像与工作流技术在银行业的应用[N];网络世界;2001年
8 邹洪强;应用系统的另类整合[N];计算机世界;2005年
9 中国软件评测中心 于春玲;企业业务流程管理系统的新亮点[N];中国计算机报;2004年
10 山西焦煤集团驻深圳办事处 刘鹏;基于企业过程建模的工作流管理系统研究[N];山西科技报;2002年
中国博士学位论文全文数据库 前10条
1 刘怡;基于工作流的连锁超市生鲜货品营运流程管理研究[D];华中科技大学;2007年
2 刘英博;工作流运行时人员智能分配技术研究[D];清华大学;2008年
3 王睿;面向目标的迁移工作流主动服务方法研究[D];山东大学;2009年
4 吴修国;面向目标的迁移工作流建模方法研究[D];山东大学;2010年
5 丁柯;网络分布计算中的事务工作流研究[D];中国科学院研究生院(软件研究所);2003年
6 肖郑进;面向企业应用的工作流精简建模研究[D];浙江大学;2006年
7 柯飞帆;面向分布应用的工作流管理系统研究与实现[D];南京航空航天大学;2006年
8 田珂;开放网络环境下工作流管理系统的技术研究[D];电子科技大学;2006年
9 程杰;迁移工作流过程分解及其规划方法研究[D];山东大学;2011年
10 高昂;基于多种视角的工作流挖掘技术研究[D];北京科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 王世锋;基于客户交互关系的服务工作流优化技术研究[D];中南大学;2008年
2 严刚;分布式工作流事务处理建模与设计[D];上海交通大学;2009年
3 李敬刚;基于活动信息传递的工作流验证的研究与实现[D];大连理工大学;2010年
4 彭永;基于移动Agent工作流的研究与实现[D];哈尔滨工程大学;2010年
5 梁晓明;工作流技术及其在外商投资审批(绿色通道)中的应用[D];机械科学研究院;2002年
6 段江波;工作流管理系统的安全研究[D];大连理工大学;2005年
7 赵淳;一种可适应性工作流的研究与实现[D];中国科学院研究生院(软件研究所);2005年
8 张海;工作流技术在法院案件管理系统中的应用[D];河海大学;2007年
9 周文斌;基于角色访问控制的工作流管理系统的信息安全研究[D];同济大学;2007年
10 杨环;分散式跨组织工作流执行模型的研究[D];浙江大学;2012年
本文关键词:数据共享型科学云工作流的数据布局策略研究,由笔耕文化传播整理发布。
本文编号:309656
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/309656.html