当前位置:主页 > 科技论文 > 计算机论文 >

分布式系统中基于检查点容错服务的设计与实现

发布时间:2017-03-23 16:17

  本文关键词:分布式系统中基于检查点容错服务的设计与实现,,由笔耕文化传播整理发布。


【摘要】:分布式系统的错误频率的增加导致运行应用任务完成时间增长,并且近年来大量记录了大规模分布式系统运行状态的现场失效数据以规范格式公布,在此背景下,本文研究分布式系统下基于检查点的容错服务,利用系统失效关联性特征来建立模型,得到减小分布式任务的完成时间的检查点放置策略,从而在保证系统可靠性的前提下,降低容错服务的实现代价,提高分布式系统的运行效率。论文主要的工作和贡献包括:(1)研究检查点/恢复技术的基本机制及其实现方式,分析分布式系统中保存通信状态以及保证其一致性的难点,通过实现了一个原型系统,研究全局检查点的代价、分布式系统的规模以及应用程序大小之间的关系;(2)提出一个基于检查点和系统失效关联性特征的容错模型,根据失效事件相关性分析结果,提出一种分布式系统节点关联性分组方法,利用节点分组信息建立以最小化浪费时间为目标的优化方程,得出了主动检查点的放置周期,并提出了一个包含主动检查点以及被动检查点的两类检查点放置策略;(3)基于FTA中失效数据格式,设计并实现了基于检查点的容错服务,并进行了对比仿真。首先选取FTA中部分系统失效数据,分别实现了本文提出的容错服务以及其他检查点容错服务,评估其中的参数,再利用剩下的系统失效数据进行性能评估,实验结果表明本文提出的容错服务的额外浪费时间较低,达到了预期目的。
【关键词】:失效关联性分析 检查点/恢复容错 同步检查点实现 FTA失效数据
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP302.8
【目录】:
  • 摘要5-6
  • ABSTRACT6-11
  • 第一章 绪论11-15
  • 1.1 研究背景11-13
  • 1.1.1 分布式系统容错11
  • 1.1.2 检查点/恢复容错技术11-12
  • 1.1.3 分布式系统的现场失效数据12-13
  • 1.1.4 分布式系统的错误相关性分析13
  • 1.2 本文研究内容和工作13
  • 1.3 本文组织结构13-15
  • 第二章 研究现状及相关技术15-22
  • 2.1 分布式系统的容错研究现状15-16
  • 2.1.1 全局检查点容错技术15
  • 2.1.2 消息缓存日志技术15-16
  • 2.2 检查点/恢复的容错技术研究现状16-20
  • 2.2.1 检查点/恢复机制的技术实现16-18
  • 2.2.2 分布式系统的检查点/恢复算法18-19
  • 2.2.3 检查点放置策略研究现状19-20
  • 2.3 系统失效数据关联性分析研究现状20
  • 2.3.1 时间相关性分析20
  • 2.3.2 空间相关性分析20
  • 2.4 尚存在的问题20-21
  • 2.5 本章小结21-22
  • 第三章 检查点/恢复容错服务22-35
  • 3.1 容错服务概述22-23
  • 3.2 问题建模23-26
  • 3.2.1 模型假设23
  • 3.2.2 模型描述与符号说明23-25
  • 3.2.3 问题描述25-26
  • 3.3 事件关联性分析与系统节点分组26-29
  • 3.3.1 事件相关性分析26-28
  • 3.3.2 系统节点分组28-29
  • 3.4 相关节点事件合并与系统事件合并29-30
  • 3.5 主动检查点周期求解30-33
  • 3.6 容错服务检查点放置策略33-34
  • 3.7 本章小结34-35
  • 第四章 检查点/恢复容错服务实现35-39
  • 4.1 单进程检查点/恢复的实现35-37
  • 4.2 分布式系统检查点/恢复原型系统37-38
  • 4.3 本章小结38-39
  • 第五章 检查点/恢复容错服务的实验分析39-54
  • 5.1 实验方法39-40
  • 5.2 实验环境40
  • 5.3 FTA事件格式分析以及数据预处理40-43
  • 5.4 模型参数的评估以及合理性分析43-48
  • 5.4.1 时间窗参数θ值评估43-44
  • 5.4.2 关联度阈值Tconst评估44-46
  • 5.4.3 拟合参数M评估46-47
  • 5.4.4 检查点代价Tgcp评估47
  • 5.4.5 回退因子K评估47-48
  • 5.5 Liu-Raga检查点策略参数评估48-51
  • 5.6 实验结果与分析51-53
  • 5.7 本章小结53-54
  • 第六章 总结及未来工作54-55
  • 6.1 总结54
  • 6.2 未来工作54-55
  • 致谢55-56
  • 参考文献56-58

【相似文献】

中国期刊全文数据库 前10条

1 刘玉华;分布式系统[J];微电子学与计算机;1983年05期

2 杜兴,谢立,孙钟秀;一种基于对象的分布式系统描述求精方法[J];计算机学报;1994年07期

3 赵宏;;分布式系统中合作进程及其同步关系[J];计算机科学;1995年02期

4 柴振荣;分布式系统的管理问题[J];管理科学文摘;1996年06期

5 岁丰;对分布式系统项目的领导[J];管理科学文摘;1996年12期

6 李斌;解决科学问题的分布式系统[J];管理科学文摘;1997年02期

7 杨运伟,张戈,高建华;分布式系统中的投票协议[J];计算机应用研究;2000年08期

8 徐海云;部件对象技术与分布式系统的开发[J];济南交通高等专科学校学报;2001年01期

9 唐少先,陈建二;分布式系统中有向流的最优调控算法[J];计算技术与自动化;2001年03期

10 钱斌,徐海云;部件对象技术与分布式系统的开发[J];管理信息系统;2001年03期

中国重要会议论文全文数据库 前10条

1 许赵云;黄林鹏;;分布式系统动态更新的研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年

2 殷跃鹏;郭长国;李小玲;王怀民;;基于事件的分布式系统行为分析框架[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

3 王晓鹏;苏亮;韩伟红;周斌;;大型分布式系统部署一致性的研究与实现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年

4 何明;裘杭萍;杨飞;刘勇;;基于可信分布式系统的可信认证技术研究[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年

5 王刚;乔纯捷;王跃科;;基于时钟同步的分布式系统一致全局状态[A];第三届全国虚拟仪器大会论文集[C];2008年

6 周方;周光霞;;分布式系统软件可靠性评估的研究[A];2005第二届电子信息系统质量与可靠性学术研讨会论文集[C];2005年

7 冯锡炜;贾传荧;杨家轩;;JMS技术在分布式系统中的应用与实现[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年

8 蒋勇;李光文;张若文;;多业务数字分布式系统(MDAS)及其应用[A];四川省通信学会2013年学术年会论文集[C];2013年

9 徐长盛;高欣;;分布式系统与Ice[A];全国冶金自动化信息网2009年会论文集[C];2009年

10 刘渊;姜建国;缪继东;范晓岚;;一个分布式系统通信控制软件的设计与实现[A];中国工程物理研究院科技年报(2002)[C];2002年

中国重要报纸全文数据库 前6条

1 抚苏;大数据带来价值[N];电脑报;2013年

2 ;首席“云”官[N];中国计算机报;2009年

3 本报记者 黄舍予;得“数据”者得天下[N];人民邮电;2012年

4 范范 编译;Docker威力:轻松化解“云锁定”[N];网络世界;2014年

5 ;IBM改进大机管理[N];网络世界;2006年

6 首都经济贸易大学 金勇;用Java和XML构建分布式系统[N];计算机世界;2002年

中国博士学位论文全文数据库 前10条

1 郑红;分布式系统形式化建模技术研究[D];中国科学院研究生院(软件研究所);2003年

2 尚庆红;半分布式系统资源发现与资源分配研究[D];电子科技大学;2013年

3 王德俊;面向服务的分布式系统动态更新研究[D];上海交通大学;2010年

4 陈晓江;分布式系统软件体系结构建模与开发方法研究[D];西北大学;2010年

5 何盼;面向可靠性优化设计的分布式系统资源分配研究[D];重庆大学;2012年

6 唐小勇;异构并行分布式系统可信调度理论与方法研究[D];湖南大学;2013年

7 龚奕利;分布式环境中的资源发现研究[D];中国科学院研究生院(计算技术研究所);2006年

8 彭舰;基于CORBA的分布式系统中实时—容错性的研究——分布式系统中动态调度的设计与实现[D];电子科技大学;2004年

9 刘国良;分布式系统中回卷恢复技术研究[D];重庆大学;2012年

10 闵帆;基于试探的任务分配算法研究[D];电子科技大学;2003年

中国硕士学位论文全文数据库 前10条

1 迟云飞;基于分布式控制架构的信号机设计研究[D];长安大学;2015年

2 高文;基于DDS的分布式系统的建模与仿真[D];东南大学;2015年

3 冒佳明;基于DDS的分布式系统的性能评估模型研究与实现[D];东南大学;2015年

4 周永江;分布式系统结构可发育模型研究[D];东华大学;2013年

5 陈均滔;分布式角色协同控制系统stage的设计与实现[D];电子科技大学;2016年

6 赵立斌;分布式MongoDB集群高可用性的研究和性能优化[D];电子科技大学;2016年

7 黄志勇;分布式系统中基于检查点容错服务的设计与实现[D];东南大学;2016年

8 殷跃鹏;基于事件的分布式系统行为分析框架的设计与实现[D];国防科学技术大学;2010年

9 胡俊;构建分布式系统的关键技术研究与实现[D];南京邮电大学;2012年

10 谢志海;分布式系统测试关键技术研究[D];西安电子科技大学;2013年


  本文关键词:分布式系统中基于检查点容错服务的设计与实现,由笔耕文化传播整理发布。



本文编号:264107

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/264107.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f6310***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com