MPI环境下多副本容错技术研究
本文关键词:MPI环境下多副本容错技术研究,由笔耕文化传播整理发布。
【摘要】:随着科学与工程技术的发展,一些大规模数据的处理和计算问题随之涌现,例如目前人类所面临的基因工程中DNA图谱绘制、全球气候的准确预报、海洋洋流循环的计算等难题。这类问题使用一般的串行计算模型在有限时间内已很难解决,而并行计算模型可以大大提高计算速度,成为解决这类问题的有效途径。目前,并行计算已在计算密集型应用领域得到了广泛的运用。并行计算在软件上主要依靠编写并行库来实现。近些年来由于高速局域网技术的发展,基于消息传递模型的并行编程库MPI由于其高效、可扩展等优点成为事实上的并行编程标准。随着并行计算系统规模的增大,运行时间的增长,基于MPI的计算系统发生故障的概率也随之升高,而现有的MPI计算环境容错能力较差,发生节点失效时更是会直接导致整个程序的崩溃,所以MPI计算环境的容错问题成为了研究热点。已有的MPI环境下容错技术包括检查点/回滚技术和冗余技术,这些解决方案都有一定的局限性:检查点/回滚计术可靠性较低且在系统规模越来越大时有效工作时间所占比率会越来越小:已有的冗余技术没有考虑在异构PC节点所搭建的MPI环境的执行效率问题,执行效率低下。本文基于MPI环境下已有的检查点技术和冗余技术,提出了一种多副本容错方案R-MPI。R-MPI采用层次化的检测结构和push检测协议来检测节点的失效行为;R-MPI使用多个物理节点作为一个逻辑组,执行相同的计算任务,向用户提供透明的容错服务,在逻辑组中任何一个物理节点失效的情况下,整个系统仍然能够保证正常运行。在逻辑组之间通信时,R-MPI始终保证逻辑组中计算性能最高的节点作为执行消息发送任务的节点,从而提高了执行效率。同时R-MPI还提供了灵活的冗余配置策略以及对动态冗余的支持,进一步提高了系统的可靠性。本文在所设计的冗余容错方案的基础上,设计和实现了R-MPI原型系统。通过原型系统实验和大规模仿真实验与已有的冗余容错方案进行对比评估。结果表明,相比于其他方案,本文的容错方案在保证系统可靠性的基础上同时具有冗余消息少、执行效率高的优点。
【关键词】:MPI并行计算 容错 冗余技术 高效
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP302.8
【目录】:
- 摘要5-6
- ABSTRACT6-11
- 第一章 绪论11-15
- 1.1 研究背景11-13
- 1.1.1 并行计算概述11-12
- 1.1.2 研究现状12-13
- 1.1.3 研究目的和意义13
- 1.2 本文的主要工作13-14
- 1.3 论文组织结构14-15
- 第二章 相关研究15-22
- 2.1 故障检测15-17
- 2.1.1 检测协议15-16
- 2.1.1.1 “推”协议和“拉”协议15-16
- 2.1.1.2 gossip协议16
- 2.1.2 检测器结构16-17
- 2.2 容错技术17-21
- 2.2.1 检查点/回滚技术17
- 2.2.2 冗余技术17-20
- 2.2.3 现有容错技术小结20-21
- 2.3 本章小结21-22
- 第三章 R-MPI的系统模型22-28
- 3.1 问题描述22-23
- 3.2 系统模型23-27
- 3.2.1 符号/名称描述23-24
- 3.2.2 故障模型24-25
- 3.2.3 系统结构模型25-26
- 3.2.4 消息交互模型26-27
- 3.3 本章小结27-28
- 第四章 R-MPI冗余容错设计28-36
- 4.1 冗余系统发生故障的概率分析28-30
- 4.1.1 静态冗余系统的故障概率分析28-29
- 4.1.2 动态冗余系统的故障概率分析29-30
- 4.2 R-MPI的冗余容错协议30-35
- 4.2.1 逻辑组的创建31
- 4.2.2 过滤器的设计31-32
- 4.2.3 无节点失效时的容错协议32-33
- 4.2.4 有节点失效时的容错协议33-35
- 4.2.4.1 节点失效的检测34
- 4.2.4.2 失效节点退出逻辑组34
- 4.2.4.3 新节点加入逻辑组34-35
- 4.3 R-MPI冗余容错策略小结35
- 4.4 本章小结35-36
- 第五章 系统设计与实现36-50
- 5.1 系统概述36
- 5.2 系统设计36-41
- 5.2.1 R-MPI总控模块的设计36-37
- 5.2.2 R-MPI控制模块的设计37-38
- 5.2.3 R-MPI监控模块的设计38-39
- 5.2.4 R-MPI协调模块的设计39-40
- 5.2.5 MPI接口函数设计40
- 5.2.6 可配置冗余的设计40-41
- 5.3 系统实现41-48
- 5.3.1 总控模块的实现42-43
- 5.3.2 控制模块的实现43-44
- 5.3.3 监控模块的实现44-45
- 5.3.4 协调模块的实现45
- 5.3.5 MPI接口函数的实现45-48
- 5.4 本章小结48-50
- 第六章 实验评估与分析50-58
- 6.1 实验环境50
- 6.2 实验方法50-51
- 6.2.1 原型系统实验51
- 6.2.2 系统仿真实验51
- 6.3 实验结果以及分析51-57
- 6.3.1 原型系统实验51-56
- 6.3.1.1 效率对比实验51-54
- 6.3.1.2 容错能力实验54-55
- 6.3.1.3 有效消息占比55-56
- 6.3.2 大规模仿真实验56-57
- 6.4 本章小结57-58
- 第七章 总结与展望58-59
- 7.1 论文总结58
- 7.2 未来工作58-59
- 参考文献59-62
- 致谢62
【相似文献】
中国期刊全文数据库 前10条
1 ;未雨绸缪话容错技术[J];计算机与网络;2004年06期
2 夏祖德;雷镜湖;;硬件容错技术[J];电子技术;1987年10期
3 周修廉;陈是荣;;分布式计算机系统容错技术[J];哈尔滨科学技术大学学报;1987年03期
4 梁思礼;容错技术在航天领域中的应用[J];系统工程与电子技术;1993年12期
5 陈万福;查新检索工作中的容错理论与容错技术[J];医学情报工作;2001年05期
6 郑平;;容错技术在数据集中系统中的应用[J];金融电子化;2001年11期
7 蒙建波,吴银成,杨俊永;容错技术与仪表的发展[J];仪器仪表学报;2002年S3期
8 黎珊珊;实时分布式计算机系统的容错技术研究[J];计算机与数字工程;2002年06期
9 张郭军,王荣;网络服务器的容错技术[J];渭南师范学院学报;2002年05期
10 ;揭密容错技术的前世今生[J];计算机与网络;2004年16期
中国重要会议论文全文数据库 前10条
1 蒙建波;吴银成;杨俊永;;容错技术与仪表的发展[A];第三次全国会员代表大会暨学术会议论文集[C];2002年
2 王东盛;;容错技术在卫星控制系统中的应用[A];第十届全国容错计算学术会议论文集[C];2003年
3 李卫东;;容错技术在梅钢的应用[A];全国冶金自动化信息网2012年年会论文集[C];2012年
4 庞海洋;李新明;;软件容错[A];第十届全国容错计算学术会议论文集[C];2003年
5 闵应骅;;网络容错与安全研究述评[A];第十届全国容错计算学术会议论文集[C];2003年
6 于洪涛;黄文轩;王和;;一种双机容错方案及其应用[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
7 龚健;杨孟飞;;硬件进化系统的容错性研究[A];第十四届全国容错计算学术会议(CFTC'2011)论文集[C];2011年
8 欧阳一鸣;余雅琼;郭凯;;基于同构片上网络拓扑可重构的容错硬件结构[A];第六届中国测试学术会议论文集[C];2010年
9 罗宏;宿红毅;战守义;;无线传感器网络故障诊断与容错技术研究进展[A];第八届全国信息获取与处理学术会议论文集[C];2010年
10 高航;罗宇;;RTEMS上基于软件重算的容错支撑设计研究[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
中国重要报纸全文数据库 前10条
1 艾先;容错技术扫描[N];中国贸易报;2004年
2 ;容错技术的发展与应用展望[N];计算机世界;2001年
3 刘雨;让容错服务器“平民化”[N];中国计算机报;2007年
4 常文杰;新容错浪潮[N];网络世界;2004年
5 胡志敏;“双核”容错服务器来了[N];政府采购信息报;2007年
6 ;容错技术应用前景[N];中国高新技术产业导报;2004年
7 孔令男;容错技术高端商用领域的核心[N];中国国门时报;2004年
8 辽河石油勘探局物资公司 赵雁 林斌;存储容错:鱼与熊掌可以兼得[N];中国计算机报;2010年
9 记者刘雨;Stratus 加大中国行业市场拓展[N];中国计算机报;2003年
10 樊强;容错服务器 服务未来[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 黄达;基于忆阻器的自治容错技术研究[D];国防科学技术大学;2014年
2 李旭;基于非易失内存的高性能计算容错技术研究[D];国防科学技术大学;2013年
3 刘玲霞;Web服务容错关键技术研究[D];国防科学技术大学;2006年
4 林勇;基于进化型硬件的容错方法研究[D];中国科学技术大学;2007年
5 孙晓星;面向方面的软件容错模型设计与分析技术[D];华东理工大学;2012年
6 李海山;面向恢复的容错计算技术研究[D];哈尔滨工程大学;2007年
7 肖勇;面向航天的多源信息流系统综合诊断与容错研究[D];东华大学;2010年
8 赵天绪;集成电路缺陷分布模型和容错技术研究[D];西安电子科技大学;1999年
9 朱萍;硬实时容错调度算法研究[D];华中科技大学;2011年
10 徐建军;面向寄存器软错误的容错编译技术研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 郑福真;高扩展高容错流式处理系统设计与实现[D];浙江大学;2015年
2 吴方军;MPI环境下多副本容错技术研究[D];东南大学;2015年
3 代征;弹性函数在弹性容错技术中的应用研究[D];武汉大学;2004年
4 吴代贤;移动Agent的容错方法研究[D];西南师范大学;2004年
5 张国强;星载并行处理计算机系统容错技术研究[D];国防科学技术大学;2006年
6 王博伟;嵌入分布系统多模式容错技术研究[D];西北工业大学;2007年
7 张小丽;机电产品容错纠错设计与仿真技术研究[D];电子科技大学;2009年
8 张淑燕;基于嵌入式多核平台的并行冗余线程容错技术研究[D];哈尔滨工业大学;2009年
9 陆永平;公安网环境下拜占庭故障模型容错技术研究[D];大连理工大学;2013年
10 琚巍巍;分布式存储系统容错技术的研究与实现[D];西安电子科技大学;2009年
本文关键词:MPI环境下多副本容错技术研究,由笔耕文化传播整理发布。
,本文编号:269483
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/269483.html