当前位置:主页 > 管理论文 > 组织管理论文 >

超级计算机自治故障管理系统消息通信及展示框架的设计与实现

发布时间:2020-03-27 00:45
【摘要】:随着超级计算机系统性能的不断提升,超级计算机的系统规模也在快速增长,由此带来的一个严峻问题是超级计算机系统的故障发生频率越来越高、可靠性面临越来越严重的威胁。可靠性制约了超级计算机系统规模的进一步扩展,从而限制了超级计算机系统性能的进一步提升,这被称为“可靠性墙”,是当前和未来的超级计算机研发所面临的严峻挑战。为了应对“可靠性墙”挑战,课题组提出并实现了一个综合性的解决方案——超级计算机自治故障管理系统,由它来完成对故障整个生命周期的自动化管理,包括故障的检测、故障的诊断、故障的隔离以及任务的恢复等,这可以极大提高故障处理的效率、降低故障处理的开销、改善大规模超级计算机系统的可靠性。超级计算机自治故障管理系统是一个非常庞大且复杂的系统,包含许多非常重要的功能,本文聚焦于其中的两项功能——统一消息通信功能和故障信息展示功能,对它们的设计和实现方案进行研究和探讨。具体而言,本文开展了以下两方面的工作:(1)消息通信框架的设计与实现消息通信框架用于实现统一消息通信功能,包括分层架构和基于发布/订阅的模块间协作机制两个方面的内容。分层架构将故障管理进行功能分解后分配到多个层次实现,只有最底层部署在超级计算机的每个节点上,负责故障的检测以及简单的诊断和处理,而将复杂的功能交由上面的层次实现;上面的层次部署在单独的管理服务器上,可以使用更多的资源、从更大范围节点集的视角实现更复杂的故障诊断和处理等功能。分层架构既能减轻故障管理对超级计算机节点性能的影响,又能支持从节点集以及整个超级计算机系统的视角对故障进行更有效地管理,同时还保证了超级计算机自治故障管理系统良好的规模可扩展性。基于发布/订阅的模块间协作机制将所有功能模块划分为发布者模块、订阅者模块、订阅/发布者模块三类并提供相应的实现接口,它们只与事件服务模块通过发布或/和接收故障事件进行交互,由故障事件在模块之间和层次之间的流动驱动故障管理的整个流程。该机制统一了各种功能模块的通信方式以及各个层次的所有自治故障管理子系统的工作方式,使得整个超级计算机自治故障管理系统的逻辑结构清晰,降低了其开发的难度和工作量并保证了其良好的功能可扩展性。(2)消息展示框架的设计与实现消息展示框架用于实现故障信息展示功能,方便系统管理和维护人员了解整个超级计算机系统的健康状况以及定位故障节点以进行必要的硬件维修/更换操作。该框架采用C/S架构,服务端作为顶层自治故障管理子系统的一个订阅者模块向其事件服务模块订阅所有的故障事件并周期性地将重要的故障信息格式化为SCSDL文档后发送给客户端,客户端对接收到的SCSDL文档进行解析后通过图形用户界面将故障信息直观形象地展示出来。超级计算机系统描述语言SCSDL具有较强的表达能力,能够描述具有任意规模的超级计算机中计算节点的实际物理布局和各节点所处的状态。借助SCSDL,服务端对故障信息进行压缩表示,客户端则实现展示界面内容和视图的分离,使消息展示框架具有良好的可扩展性和灵活性。原型系统在“天河二号”超级计算机上的部署实验验证了本文工作的可行性和有效性,本文工作为大规模P级系统以及未来E级系统的故障管理和状态信息展示做了积极的探索和有益的尝试。
【图文】:

系统结构,页图


历届Top500榜单中各种系统结构所占比例

系统基本模型,发布者,事件服务,订阅者


图 2.1 采用发布/订阅模式的系统基本模型示意从上述事件的发布/订阅过程可以看出,事件服务对发布者和订阅者进行了强有力的解耦,这可以从空间、时间和同步性三个维度进行分析,,如图 2.2[53]所示。(1)空间上的解耦(图 2.2(a)):交互的双方不需要知道彼此。发布者通过事件服务发布事件,订阅者则通过事件服务间接地接收事件。发布者通常不会对订阅
【学位授予单位】:国防科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP338.4

【相似文献】

相关期刊论文 前10条

1 马科笃;潘何;吴静;冯泽江;张翼;;对天然气压缩机全面故障管理的研究[J];设备管理与维修;2013年02期

2 杨惠敏;孙红军;;计算机控制系统的零故障管理[J];大氮肥;2006年02期

3 马艳华;呼咏;郑玉彬;;谈设备零故障管理[J];建筑机械;2006年13期

4 王俊洪;浅谈设备零故障管理[J];中国设备工程;2003年01期

5 郭庆林;无故障管理的实践[J];冶金经济与管理;2003年03期

6 王梅 ,张兰英;FMX(故障管理专家)应用初探[J];通讯世界;2002年09期

7 魏光轩;开展全面故障管理的探讨[J];设备管理;1987年04期

8 高来阳;;<设备的状态管理>讲座(二)[J];设备维修;1987年02期

9 冯月霞;樊志强;;集中故障管理系统的建设和应用[J];通信企业管理;2016年02期

10 刘华进;;零故障管理在大型泵站的应用[J];设备管理与维修;2014年08期

相关会议论文 前10条

1 李t

本文编号:2602198


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/yunyingzuzhiguanlilunwen/2602198.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1b5d5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com