消息传递系统容错技术研究
发布时间:2020-09-25 07:05
集群系统具有结构可扩展性好、性价比高等特性,己经成为并行处理发展的一个重要分支。但是随着集群应用领域的拓展、集群规模的不断扩大,以及网格的出现,人们对其可靠性也有了更高的要求。在集群系统上运行的通常都是大规模、长时间、以消息传递技术实现的并行科学计算程序,缺乏必要的容错措施时,某种异常或故障的发生会导致一次计算的彻底失败,大量的工作付诸东流。现有的消息传递系统如MPI本身都未提供从失败中自动恢复过来的机制,研究其容错技术就成为当前集群系统发展的急需。 检查点设置及卷回恢复是一种典型的软件容错技术,也是避免失败时大量地浪费机时的有效手段。然而,为并行程序设置检查点要比为单个进程设置检查点复杂得多,因为在消息传递系统中,消息的传递使得进程之间存在依赖性。如何获取全局一致的可恢复状态是并行检查点机制在消息传递系统中应用的难题。此外,节点失效或进程出错会引起并行程序失败退出,必须手动重新从检查点启动程序;有时进程出错会导致悬空程序。因此,对节点和进程进行错误探测并在出错时实现自动恢复也是并行计算容错技术的一个重要部分。 本文首先对卷回恢复协议进行较为全面的研究,并对目前已有的协同式检查点协议进行分析和对比。我们认为,阻塞和控制消息的数量是影响协同式检查点协议开销的两个主要因素。针对协同式检查点协议的现状问题,本文提出了一个可重建的全局检查点的概念和基于可重建检查点的非阻塞协同式检查点协议。该协议将进程在运行过程中的状态分为三种,并使用捎带消息技术和非阻塞的方法,减少了用于协同的控制消息的数量。该协议利用并行程序运行过程中卷回恢复的概率远小于设置检查点的概率的特性,将检查点设置所引入的大部分开销转至卷回恢复阶段,在很大程度上减少了并行程序使用检查点机制所引入的开销。 其次,本文通过对一个进程管理组件MPD的分析和研究,在MPD中加入了错误探测和自动恢复的功能,克服了因发生错误而手动重启和悬空程序的问题。加入错误探测和自动恢复后的MPD系统称为MPD/FT。MPD/FT通过对节点和进程的监控,能够及时探测到节点失效和进程错误的发生,快速进行自动恢复。 最后,本文讨论了在MPICH2中实现的基于可重建检查点的非阻塞协同式检查点协议、基于消息驱赶的SS协议和基于消息计数的SS协议的开销对比。实验结果表明,基于可重建检查点的非阻塞协同式检查点协议的开销明显低于其它两个协议。
【学位单位】:国防科学技术大学
【学位级别】:硕士
【学位年份】:2006
【中图分类】:TP302.8
【部分图文】:
国防科学技术大学研究生院学位论文程环传递信号,manager 进程再将信号发送给 client 进程。一个机器上的单进程一样,可以使用 Ctrl-Z 命令挂起、继-C 杀死。定向 IO。Mananger 进程捕捉它们的 client 进程的标准输(stderr),并通过 Manager 二叉树(如图 3.5)传送到 0传送给 console 进程显示出来,每条显示都会有 client 进程层 Manager 进程将输出传送给连接的上层 Manager 进程, 号 Manager 进程发送给 console 进程显示出来。
本文编号:2826395
【学位单位】:国防科学技术大学
【学位级别】:硕士
【学位年份】:2006
【中图分类】:TP302.8
【部分图文】:
国防科学技术大学研究生院学位论文程环传递信号,manager 进程再将信号发送给 client 进程。一个机器上的单进程一样,可以使用 Ctrl-Z 命令挂起、继-C 杀死。定向 IO。Mananger 进程捕捉它们的 client 进程的标准输(stderr),并通过 Manager 二叉树(如图 3.5)传送到 0传送给 console 进程显示出来,每条显示都会有 client 进程层 Manager 进程将输出传送给连接的上层 Manager 进程, 号 Manager 进程发送给 console 进程显示出来。
【引证文献】
相关期刊论文 前1条
1 李飞飞;;基于MPI并行程序的容错系统设计[J];电脑知识与技术;2011年04期
相关硕士学位论文 前1条
1 孟祥坤;基于Linux用户级进程检查点系统的设计与实现[D];山东大学;2012年
本文编号:2826395
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2826395.html