随着超级计算机的快速发展,系统规模和复杂度也越来越大,系统可靠性和容错能力面临着巨大挑战。无论是基于故障预测技术的前瞻式避错,还是基于检查点技术的被动式容错,或者提升系统可靠性的调度技术,都需要对系统故障特征的精细的定性与定量描述,以及有效的故障预测方法。本文深入研究了神威蓝光(基于多核)与太湖之光(基于异构众核)两台典型的超级计算机的失效特征,提出了若干面向超级计算机的故障分析新方法,发现了若干以前尚未发现的超级计算机的故障发生特征与规律,建立了适用于超级计算机的故障分布与容错模型,并提出了有效的故障预测方法。本文的主要贡献及创新如下:1、针对超级计算机中分散、多样、瞬时、不确定性和不可回溯性的系统故障,提出了面向超级计算机的可扩展故障监控、采集和分析框架,主要包括:基于分布式基础设施,提出了一种基于事件触发的可扩展状态监控与采集模型,能够实时、高效地获取大规模并行系统的故障状态信息。实验表明,该状态监测模型的实时性能与系统规模无关,可面向大规模并行系统实现20秒以下的故障状态发现。在故障传感点设置和故障数据处理方法基础上,建立了基于统计数据的故障分析体系,能够有效分析和发现超级计算机故障的特征及影响因素。通过故障分析发现,由CPU、内存和互连系统组成的主机系统,是超级计算机的主要失效来源。2、针对超级计算机中主要故障之一的内存故障的特征分析问题,提出了基于序列模式挖掘的内存故障关联分析方法。该方法建立与内存故障关联对应的的序列规则模型,基于超级计算机主机系统的内存故障大数据,能够有效分析主机系统CPU节点上内存单错与内存多错、内存失效序列与后续内存失效的关联关系,并发现了以前尚未发现的影响系统容错设计和内存失效预测的关键性结论。该结论包括:DRAM单错不会导致DRAM多错;CPU节点的内存失效序列可能会导致该CPU节点上内存失效继续发生。3、针对超级计算机中主要计算部件故障发生的影响因素问题,提出了一种统计规律与协同分析相结合的故障特征识别方法。该方法设定或选择针对性实验环境,根据统计数据发现并验证了主要计算部件的故障发生规律,识别了系统中主要计算部件可靠性和故障发生的关键影响因素。该结论包括:DRAM单错与作业无关,与CPU节点或DRAM的可靠性有关;内存失效的发生可能与内存芯片自身的可靠性特性有关;单纯的计算密集型应用对CPU故障或CPU失效的影响最小等。4、针对超级计算机中主要计算部件的失效时间定量描述的问题,按照时间和空间维度分析超级计算机的失效数据,建立了适应于超级计算机的多维度统一的失效时间模型,该模型主要包括:统一的CPU节点内存失效时间模型;适用于CPU节点、计算插件卡和主机计算机系统的多维统一的失效时间模型。应用该模型,进行了可靠性评估;并结合失效预测应用场景,建立了基于失效间隔时间的失效预测模型,分析了应用与求解方法。该模型包括:CPU节点的内存失效间隔时间可以用对数正态(Lognormal)分布定量描述。威布尔(Weibull)分布在多维空间上与实际失效间隔时间最符合。5、针对超级计算机中的检查点容错未能与实际运行环境可靠性相匹配造成的检查点开销较大的问题,提出了数据驱动的自适应容错模型。该模型基于细粒度资源的失效时间分布,建立了面向超级计算机复杂故障的多层失效模型;根据数据反映出的系统动态故障特征,提出了数据驱动的自适应容错方法,并设计了自适应优化算法。通过对神威太湖之光系统的容错实验分析,验证了数据驱动自适应容错模型及检查点优化方法的有效性。数据分析表明,最优化检查点间隔相对经验检查点间隔时间,可有效降低检查点容错的开销。6、针对超级计算机中主动容错技术所需的精确故障预测难题,提出了一种基于带时间标签多序列模式挖掘的故障预测算法。该算法基于串行winepi算法,并进行了面向多序列的扩展和完善,采用滑动窗口方法,在时间窗口约束下,在带时间标签多序列上挖掘序列模式关联规则,实现了对故障发生位置及时间的预测。在神威超级计算机中的故障预测分析显示,使用该算法生成的预测规则置信度较好,可以有效预测超级计算机中的故障,预测准确率在60%~99%。
【学位单位】:战略支援部队信息工程大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP338
【部分图文】: 美国NCSIE级计算项目路线图[21]
Bluegene/LGene/L 是由 IBM 负责建造的峰值性能 596 teraFLOPS 的超级计用双核处理器,并通过 3D torus 网络进行互连[22]。它是 IBM计算机的典型代表。[7]分析了 BlueGene/L 系统的失效特征,介绍了其 RAS 时间日处理。通过数据分析发现系统失效的时间和空间统计特征,来随后,通过统计发生失效的作业中非严重事件之后发生严重事件严重事件的预测。但未建立适合 Bluegene/L 的失效间隔时间
图 2. 3 失效预测的动态学习框架[23]egene/P/P 是 IBM 开发的第二代 Bluegene 架构超级计算机,三倍。Bluegene/P 与 Bluegene/L 最大的不同是,ymmetric multiple processor)和加入了 3D torus4]中提出了针对 BlueGene/P 系统的失效预测时序模遗传算法来优化预测规则的生成。但研究中并没有给
【相似文献】
相关期刊论文 前10条
1 李亚娟;王瑶;陈岩;秦爽;;计算机科学技术的应用及发展趋势[J];计算机产品与流通;2018年10期
2 张悠然;;浅析计算机科学与技术的发展趋势[J];中国民商;2018年10期
3 王康为;;浅析数学在计算机领域中的应用[J];中国战略新兴产业;2018年08期
4 赵丽荣;;计算机科学技术现状总结及前景展望[J];信息与电脑(理论版);2018年08期
5 雷前琼;;智能建筑中计算机科学与技术的应用[J];信息与电脑(理论版);2018年16期
6 魏宁;;“不插电的计算机科学”,你试过吗?[J];中国信息技术教育;2015年11期
7 张渝江;;编程:一项培养未来人才的基本素养[J];中小学信息技术教育;2017年02期
8 张红;;认知机器人:通往智慧之路[J];中小学信息技术教育;2017年08期
9 周丽丽;;在游戏中学习,在快乐中收获——“不插电的计算机科学”应用尝试[J];中国信息技术教育;2017年17期
10 王丽;;浅析离散数学在计算机科学中的应用[J];数学学习与研究;2011年09期
相关博士学位论文 前1条
1 刘睿涛;超级计算机故障分析、建模与预测技术研究[D];战略支援部队信息工程大学;2018年
相关硕士学位论文 前10条
1 兰碧莹;《大学计算机》SPOC课程内容设计研究[D];东北师范大学;2018年
2 曹中奇;就业视阈下的高校计算机本科专业建设研究[D];渤海大学;2018年
3 杨帆;《计算机与翻译:译者指南》(第八章)汉译实践研究报告[D];西北大学;2018年
4 张琳琳;《计算机科学中的伦理:简明模块》(9-10章)翻译报告[D];华南理工大学;2017年
5 郭凤娇;情报学与计算机科学的学科交叉研究[D];山东理工大学;2014年
6 李岚;略论时态逻辑在计算机科学中的发展[D];华东师范大学;2013年
7 俞鹰英;高中信息科技教学中渗透计算机科学史的实践研究[D];上海师范大学;2013年
8 魏丽娜;《计算机科学导论》(节选)翻译报告[D];华南理工大学;2016年
9 袁月;计算机单字及字库的著作权保护研究[D];天津大学;2016年
10 时承凯;计算机科学学术影响力排名系统的设计与实现[D];上海交通大学;2014年
本文编号:
2854103
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2854103.html