并行计算中主机故障容错机制研究
发布时间:2020-08-10 17:37
【摘要】:随着高性能并行计算系统规模越来越大,软件和硬件发生故障的概率随之增大,并且由于网格系统本身及网格资源的高度动态异构性,网格计算平台较传统的计算平台有着更大的出错机率,系统的容错性和可靠性已成为应用可扩展性的主要限制因素。高性能并行计算领域的容错技术越来越受到人们的重视。如何针对网格系统的特点,加入恰当的容错机制,切实提高网格计算的可靠性和稳定性,是高性能计算领域的研究热点和难点。 本文在深入研究网格计算平台的基础上,主要进行了包含以下三个方面的工作: 首先:在P2P-MPI的实验平台上验证错误检测器的各种错误检测方法,对每种方法进行实验分析,讨论其适用性; 其次:讨论错误恢复机制中副本一致性,副本个数,网络参数等各种参数对备份进程组的影响,寻求最佳备份的个数。本文在主机分配策略中,充分考了虑带宽、CPU能力的影响,尽管此模型仅仅是初步估算,但在以后的实际应用中,是一个应该考虑的因素; 再次:在寻求最佳备份过程中,提出能够容忍的失效概率,在这个概率的条件下得到一个最佳备份区间,不必备份个数减小的情况下,立即启动恢复机制,节约了网络带宽。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP302.8
【图文】:
图 1-1 并行计算系统理划分来看,分布式内存和共享内存是两种基本的并行计算机存储布式共享内存同时也是一种越来越重要的并行计算机存储方式。问题在计算机中的地位越来越重要,现在计算机的性能在很大程度储器,而且新型的计算机有可能采用以存储器为中心而不是传统的以心。共享内存的并行计算机在编程上相对简单,容易使用,但是它有缺点就是扩展性较差,不可能有太多的处理器共用相同的存储器,这性访问和读写冲突等问题会引起计算效率的降低。对于分布式内存的其扩展性较好,增加更多的处理器引起的问题不会象共享内存一样样的计算机上编写并行程序相对较难。享内存的并行计算机;共享内存的并行计算机,通过对共享内存的编程,实现起来相对简理单元通过对共享内存的访问来交换信息、协调各处理器对并行任务享内存往往成为性能,特别是扩展性的重要瓶颈。
图 2-1 悲观日志协议模型志事件日志信息以易失性日志的形式临时保存,然后周期地观日志乐观地假设在发生故障之前能记录完日志。因此,应塞等待日志保存到稳定存储。志和悲观日志相比,乐观日志必须记录多个检查点导致垃圾外可能产生孤立进程。说明了乐观日志协议。假设 m5 相关的事件日志记录到稳定。此时,P1 变成了孤立进程,必须回滚取消接收 m6 的操作P0 取消接收到 m7 的操作。要正确执行取消操作,必须记关系,以保证恢复到最近的全局一致状态。 乐观日志必须圾回收算法相对复杂。如 P2 故障导致 P1 从检查点 B 恢 D 恢复。另外,输出提交需要多个进程协调而延迟输出提
图 2-1 悲观日志协议模型志事件日志信息以易失性日志的形式临时保存,然后周期地存观日志乐观地假设在发生故障之前能记录完日志。因此,应用阻塞等待日志保存到稳定存储。志和悲观日志相比,乐观日志必须记录多个检查点导致垃圾回另外可能产生孤立进程。:说明了乐观日志协议。假设 m5 相关的事件日志记录到稳定存障。此时,P1 变成了孤立进程,必须回滚取消接收 m6 的操作, P0 取消接收到 m7 的操作。要正确执行取消操作,必须记录赖关系,以保证恢复到最近的全局一致状态。 乐观日志必须记垃圾回收算法相对复杂。如 P2 故障导致 P1 从检查点 B 恢复点 D 恢复。另外,输出提交需要多个进程协调而延迟输出提交
本文编号:2788408
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP302.8
【图文】:
图 1-1 并行计算系统理划分来看,分布式内存和共享内存是两种基本的并行计算机存储布式共享内存同时也是一种越来越重要的并行计算机存储方式。问题在计算机中的地位越来越重要,现在计算机的性能在很大程度储器,而且新型的计算机有可能采用以存储器为中心而不是传统的以心。共享内存的并行计算机在编程上相对简单,容易使用,但是它有缺点就是扩展性较差,不可能有太多的处理器共用相同的存储器,这性访问和读写冲突等问题会引起计算效率的降低。对于分布式内存的其扩展性较好,增加更多的处理器引起的问题不会象共享内存一样样的计算机上编写并行程序相对较难。享内存的并行计算机;共享内存的并行计算机,通过对共享内存的编程,实现起来相对简理单元通过对共享内存的访问来交换信息、协调各处理器对并行任务享内存往往成为性能,特别是扩展性的重要瓶颈。
图 2-1 悲观日志协议模型志事件日志信息以易失性日志的形式临时保存,然后周期地观日志乐观地假设在发生故障之前能记录完日志。因此,应塞等待日志保存到稳定存储。志和悲观日志相比,乐观日志必须记录多个检查点导致垃圾外可能产生孤立进程。说明了乐观日志协议。假设 m5 相关的事件日志记录到稳定。此时,P1 变成了孤立进程,必须回滚取消接收 m6 的操作P0 取消接收到 m7 的操作。要正确执行取消操作,必须记关系,以保证恢复到最近的全局一致状态。 乐观日志必须圾回收算法相对复杂。如 P2 故障导致 P1 从检查点 B 恢 D 恢复。另外,输出提交需要多个进程协调而延迟输出提
图 2-1 悲观日志协议模型志事件日志信息以易失性日志的形式临时保存,然后周期地存观日志乐观地假设在发生故障之前能记录完日志。因此,应用阻塞等待日志保存到稳定存储。志和悲观日志相比,乐观日志必须记录多个检查点导致垃圾回另外可能产生孤立进程。:说明了乐观日志协议。假设 m5 相关的事件日志记录到稳定存障。此时,P1 变成了孤立进程,必须回滚取消接收 m6 的操作, P0 取消接收到 m7 的操作。要正确执行取消操作,必须记录赖关系,以保证恢复到最近的全局一致状态。 乐观日志必须记垃圾回收算法相对复杂。如 P2 故障导致 P1 从检查点 B 恢复点 D 恢复。另外,输出提交需要多个进程协调而延迟输出提交
【参考文献】
相关期刊论文 前4条
1 石宣化;金海;羌卫中;;通用网格容错框架研究[J];华中科技大学学报(自然科学版);2006年07期
2 董剑;左德承;刘宏伟;杨孝宗;;一种基于QoS的自适应网格失效检测器[J];软件学报;2006年11期
3 邱敏,桂小林;实现可靠计算的容错网格结构[J];微电子学与计算机;2005年07期
4 朱子玉,都志辉,李三立;机群系统LogP通信模型的测试与分析[J];小型微型计算机系统;2002年08期
相关博士学位论文 前3条
1 田敬;对等存储系统中的数据可用性与安全性研究[D];北京大学;2007年
2 陈益峰;若干典型网格应用的容错及性能研究[D];武汉大学;2004年
3 田东;面向网格计算的动态容错服务策略及相关算法研究[D];重庆大学;2007年
本文编号:2788408
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2788408.html