异构分布计算系统可靠性分析及优化方法研究
本文关键词:异构分布计算系统可靠性分析及优化方法研究 出处:《东南大学》2016年博士论文 论文类型:学位论文
更多相关文章: 异构分布计算系统 关联失效 可靠性 DAG任务调度 优化设计 截止时间约束
【摘要】:随着大规模科学计算应用的普及以及并行数据处理规模的不断增大,以网格和并行计算为基础的分布计算系统已成为信息技术和通信技术的重要发展方向,尤其是通过互联网络将大量廉价、处理能力和可靠性等都相互异构的计算单元进行连接所构成的数据存储和计算平台受到学术界和工业界的广泛关注。异构分布计算平台也成为中国战略性新兴产业的重要组成部分,其中系统性能和可靠性优化问题已成为国内外研究的热点。但是系统和应用规模逐渐增大的同时,并行应用对系统长期可靠运行的时间需求也越来越高。此外,由于异构系统下计算资源的动态加入和退出,并行应用程序输入参数的变化以及异构系统环境等因素将引起并行应用程序的执行出现不确定性和不可控性等安全威胁。因此,各并行任务能否可靠地运行是评价分布计算系统优劣的关键指标之一。尤其当异构分布计算系统在时间和空间维度存在关联失效背景下,如何分析系统可靠性以及通过任务调度对并行应用程序执行过程的可靠性进行优化等问题。本文首先从系统可靠性分析理论入手,重点解决关联失效模式下异构分布计算系统可靠性度量和优化方法,并在分布计算系统资源管理和任务分配等方面展开深入研究和探索,提出考虑性能和可靠性开销、具有截止时间约束以及计算资源存在关联失效等条件下的任务调度理论和可靠性优化方法,旨在解决异构分布计算系统可靠性领域的部分关键技术问题。本文的主要研究工作和贡献包括:(1)扩展现有分布计算系统可靠性分析方法,提出关联失效模式下异构分布计算系统可靠性评估方法。目前的异构分布计算系统存在大规模资源共享、广域通信以及多资源合作,而很多传统可靠性分析方法都建立在计算资源间的失效是相互独立的假设基础之上,没有考虑计算资源在时间和空间维度上可能存在的关联失效,尤其随着纳米级大规模集成电路的快速发展,高能电磁辐射引起计算节点关联失效的概率越来越大。根据分布计算系统资源的失效特征建立系统失效模型,提出关联失效模式下基于泰勒展开式的计算系统可靠性度量方法,并从系统结构角度分析共因失效对系统可靠性的影响程度,通过仿真实验验证影响系统可靠度和平均无故障时间的主要因素。在此基础上,进一步提出冗余系统和静态失效系统可靠性分析方法,并通过仿真实验验证算法的性能和有效性。(2)针对资源存在异构性、动态性和广域分布性等特点的大规模分布计算系统,提出基于任务期望执行时间和可靠性开销的表调度算法。分析任意架构网络模型(APN)下关联任务之间最可靠通信链路的选择问题,并提出考虑可靠性开销的最优路径选择算法(OCPR)。在此基础上通过添加具有预测功能的分布计算节点选择策略,以及考虑系统异构性和可靠性开销的任务优先级计算方法,设计分布计算系统环境下可靠性驱动的任务调度算法(RDLS)。仿真实验结果表明所提算法在相同时间复杂度条件下,相对于经典的HEFT和RASD算法具有更优的调度性能和可靠性指标。(3)针对实际分布计算系统运行过程中所收集的开源失效数据集FTA,从时间和空间角度对计算资源的关联失效进行建模,其中空间角度又分为物理空间关联失效和逻辑空间关联失效两种失效模型,并利用马尔科夫随机场和Gibbs分布之间存在的等价理论对所提出的关联失效模型进行理论分析和形式化建模。对关联失效进行建模的目的是将分布计算系统内的节点进行关联组划分,每个组内的计算节点具有强关联性,从而为选择冗余节点来提高任务执行可靠性提供依据,避免选择同-关联失效组内的多个计算节点作为同一任务的副本计算节点。通过理论分析和实验验证了所提关联失效模型的有效性和可行性。(4)针对计算资源存在关联失效的分布计算系统和具有截止时间约束的并行DAG应用程序,提出基于任务截止时间划分的关键路径模型和子任务截止时间分配算法(SDA)。在此基础上,进一步提出基于可靠性驱动的贪心任务复制算法(RDGD)和基于费用驱动的任务复制算法(CDD),在选择复本资源进行任务分配以提高应用程序执行可靠性时,避免同一个子任务分配给具有关联失效特性的计算节点集合内的多个节点,以最大化子任务执行结果的可靠性。实验结果显示基于截止时间划分的关键路径和基于不同目标的可靠性优化调度算法不仅能够提高并行应用程序执行的可靠性,同时又能满足并行应用程序调度性能的需求。
【学位授予单位】:东南大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP302.7
【相似文献】
相关期刊论文 前10条
1 李晖,欧宗瑛;异构分布环境下数据获取与多态发布[J];计算机工程与设计;2004年01期
2 徐有明;;异构分布式数据查询系统设计分析[J];软件导刊;2009年09期
3 杨仕平;熊光泽;刘锦德;;基于反射中间件的异构分布式实时调度系统[J];计算机科学;2002年11期
4 陆鑫达,胡越明;面向对象的开放式异构分布计算系统[J];计算机工程与应用;1994年Z5期
5 詹敏,左春,孙玉芳;异构分布环境下企业计算模型的研究与实现[J];电子学报;2002年11期
6 陆启军;;异构分布式环境下的可靠性管理软件系统开发及应用[J];福建电脑;2007年05期
7 李贵,尹朝万,涂晓军,郑怀远;异构分布环境下的远程协作系统(HD-RCS)[J];小型微型计算机系统;1997年10期
8 梁正友,张凌,董守斌,亓旭光;异构分布计算环境下应用程序的执行时间预测研究[J];计算机应用与软件;2005年10期
9 平立;沈军;;异构分布式环境下DNS动态负载均衡模型研究[J];计算机应用与软件;2006年11期
10 孙宁,贲可荣,王芳;异构分布环境下监控系统软件设计方法[J];舰船电子工程;2003年04期
相关会议论文 前2条
1 梁正友;张凌;董守斌;亓旭光;;异构分布计算环境下应用程序的执行时间预测研究[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
2 孙志挥;陈明生;;联邦式异构分布数据库的性能分析[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年
相关博士学位论文 前1条
1 王辉;异构分布计算系统可靠性分析及优化方法研究[D];东南大学;2016年
相关硕士学位论文 前3条
1 陈明;基于Web Services的异构分布式数据共享技术研究[D];华东师范大学;2006年
2 安立华;异构分布数据源中基于本体的个性化查询方法研究[D];大连海事大学;2005年
3 陆启军;异构分布式环境下的可靠性管理软件的开发及应用[D];南京航空航天大学;2005年
,本文编号:1337689
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1337689.html