计算密集型应用下嵌入式双机容错系统研究与实现
发布时间:2017-08-30 03:10
本文关键词:计算密集型应用下嵌入式双机容错系统研究与实现
更多相关文章: 检查点 双机容错 嵌入式系统 可靠性 马尔可夫概率模型
【摘要】:随着ARM处理器性能不断提升,同时又兼顾低功耗、体积小的特点,嵌入式计算密集型应用越来越多。鉴于计算密集型领域系统的可靠性要求高,因此如何设计高可靠性嵌入式系统成为一个至关重要的课题。 检查点机制和双机容错机制是提高系统可靠性的有效途径,检查点机制可以缩短任务恢复时间,通常应用于通用计算机数据计算领域,双机容错机制可以容忍永久故障。传统意义上的嵌入式双机容错系统并没有考虑到检查点机制,一旦计算机出现瞬时故障任务只能从程序起始位置运行,这样程序恢复代价大,仅适用于工控领域和其他不需要连续计算的领域。由于计算密集型程序运算时间长,并且不能被打断,因此传统双机容错系统已不再适用。本论文根据嵌入式系统的特点,以传统的双机容错系统为基础,结合检查点机制,提出了一种能够运用到嵌入式计算密集型领域的双机容错系统。 检查点设置时间间隔的长短直接影响系统的可靠性和额外开销率。本文在研究影响系统可靠性因素、检查点机制以及双机容错机制基础上,分析瞬时故障和永久故障的特点,根据马尔可夫过程提出两个检查点设置优化模型:一个是基于任务截止时间的检查点时间间隔优化模型,它可以研究在截止时间到来之前任务完成的概率;另一个是基于多级检查点的时间间隔优化模型,它在前一模型基础上进行改进,引入二级检查点从而缩短故障检测时间。当二级检查点工作时间较短时,基于多级检查点时间间隔优化模型明显优于前一模型。接着以基于多级检查点时间间隔优化模型为指导,实现了基于最优检查点的嵌入式双机容错系统,它可以修复瞬时故障和容忍永久故障,并着重介绍了设计和实现过程。检查点保存进程信息时,I/O操作次数较多,本文提出写缓冲优化算法,减少I/O操作次数,以提高检查点性能,经过测试写缓冲优化算法最大可以达到36%性能提升率。最后,本文以两个计算密集型算法(矩阵相乘和SUSAN算法)为例进行系统测试,表明最优检查点设置算法能够明显提高嵌入式计算密集型应用下双机容错系统的可靠性。通过本课题的研究,对构建瞬时故障和永久故障不可忽略的、面向计算密集型应用的嵌入式系统有一定的理论和应用价值。
【关键词】:检查点 双机容错 嵌入式系统 可靠性 马尔可夫概率模型
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP332;TP302.8
【目录】:
- 摘要6-7
- Abstract7-11
- 第1章 绪论11-17
- 1.1 引言11
- 1.2 研究背景与意义11-12
- 1.3 国内外研究现状12-14
- 1.3.1 硬件容错研究现状12-13
- 1.3.2 软件容错研究现状13-14
- 1.4 课题研究与实现的难点14
- 1.5 本论文研究内容及章节安排14-17
- 1.5.1 本论文研究内容14-15
- 1.5.2 本论文章节安排15-17
- 第2章 容错系统结构和策略17-23
- 2.1 系统可靠性17-19
- 2.1.1 可靠性及相关概念17-18
- 2.1.2 可靠性模型分类18-19
- 2.2 嵌入式计算机和通用计算机容错的差异19
- 2.3 双机容错策略19-21
- 2.3.1 故障类型19
- 2.3.2 双机容错技术19-21
- 2.4 检查点机制研究21-22
- 2.4.1 检查点分类21
- 2.4.2 内核态检查点研究21-22
- 2.5 本章小结22-23
- 第3章 基于Markov过程双机容错模型建立与仿真23-40
- 3.1 基于检查点机制的双机容错系统架构23-24
- 3.2 双机容错可靠性模型24-25
- 3.2.1 可靠性模型选取24
- 3.2.2 Markov过程24-25
- 3.3 传统检查点优化模型25-26
- 3.4 基于任务截止时间的可修模型26-32
- 3.4.1 基于任务截止时间的可修模型状态定义26-27
- 3.4.2 基于任务截止时间的可修模型建立27-30
- 3.4.3 基于任务截止时间的可修模型仿真30-32
- 3.5 基于多级检查点的可修模型32-39
- 3.5.1 基于多级检查点的可修模型状态定义32-33
- 3.5.2 基于多级检查点的可修模型建立33-36
- 3.5.3 基于多级检查点的可修模型仿真36-39
- 3.6 本章小结39-40
- 第4章 基于最优检查点的双机容错系统实现40-58
- 4.1 系统总体架构40-42
- 4.1.1 系统硬件平台40-41
- 4.1.2 系统软件结构设计41
- 4.1.3 双机容错系统总体架构41-42
- 4.2 最优检查点设置算法42-43
- 4.3 通信子系统43-48
- 4.3.1 双机通信43-45
- 4.3.2 单机进程间通信45-46
- 4.3.3 任务同步设计46-48
- 4.4 故障检测子系统48-50
- 4.4.1 传统故障检测算法48-49
- 4.4.2 基于检查点的故障检测算法49-50
- 4.5 故障处理子系统50-55
- 4.5.1 任务保存50-52
- 4.5.2 任务回卷52-53
- 4.5.3 双机切换53
- 4.5.4 单机双任务容错53-55
- 4.6 内核态检查点性能优化研究55-57
- 4.6.1 检查点写操作优化算法55-56
- 4.6.2 检查点写操作优化测试56-57
- 4.7 本章小结57-58
- 第5章 系统性能测试58-70
- 5.1 故障注入模型58-61
- 5.1.1 瞬时故障注入模型59-60
- 5.1.2 永久故障注入模型60-61
- 5.2 双机容错系统基本性能测试61-63
- 5.3 系统可靠度测试63-69
- 5.4 本章小结69-70
- 结论与展望70-72
- 结论70
- 展望70-72
- 致谢72-73
- 参考文献73-77
- 攻读硕士学位期间发表的论文及科研成果77
【参考文献】
中国期刊全文数据库 前10条
1 陈筠;桑楠;熊光泽;;一种容错实时计算机体系结构的研究与实现[J];电子科技大学学报;2007年05期
2 李洪超;;计算机系统的容错技术方法[J];单片机与嵌入式系统应用;2010年11期
3 杨桦;刘群;周新发;;可靠性技术在星载计算机设计中的应用[J];电子技术应用;2009年07期
4 王志刚;戴柏林;张必超;;电子元器件的失效模型与可靠性试验方法浅析[J];电子产品可靠性与环境试验;2009年S1期
5 李凯原,杨孝宗;提高用任务重复的检查点方案的性能[J];电子学报;2000年05期
6 廖剑伟;李莉;陈善雄;余建桥;;实时交互进程的并发检查点技术[J];电子科技大学学报;2011年04期
7 安金霞;朱纪洪;王国庆;薛晓,
本文编号:756925
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/756925.html