“魔方-3”高性能计算机运维管理平台设计与实现
发布时间:2021-01-14 04:03
随着科技的进步,高性能计算机作为重要的科研基础设施为各行各业的发展提供了有力的支撑保障。确保高性能计算机稳定高效的运行是系统管理员的希冀也是职责所在。主要介绍了以"魔方-3"高性能计算机为对象开发的运维管理平台,包括平台架构设计、底层数据采集接口和方式,以及该平台实现的系统监控、自动巡检、数据分析等多种功能。借助这个平台系统管理员能直观清晰地了解计算机运行状况,及时发现并处置故障,通过多角度的数据挖掘分析影响当前运行效率的瓶颈所在,为后续软硬件优化升级提供科学的决策依据。
【文章来源】:计算机工程与科学. 2020,42(10)北大核心
【文章页数】:8 页
【部分图文】:
“魔方-3”运维管理平台架构
主机运维管理平台通过数据采集引擎对多种采集方式进行封装,并对底层硬件以及作业调度软件进行数据采集。在保存这些信息时引入硬件池、指标池、线程池和数据池概念,对采集的各类数据进行分类存储,从而搭建运维管理平台的采集框架。通过采集框架对数据进行统一分发,为上层监控、巡检、统计分析等模块提供数据支撑。3.1 硬件数据采集
魔方-3运维管理平台
【参考文献】:
期刊论文
[1]面向集群服务器系统的监控平台综述[J]. 胡鹤,赵毅,牛铁,曹荣强. 科研信息化技术与应用. 2018(01)
[2]气象高性能计算机故障监控系统的设计与实现[J]. 许皓皓,李从初,姚浩立,徐振宇. 计算机时代. 2017(08)
[3]面向移动APP的高性能计算作业监控系统[J]. 王玮,李薛剑,俞昳豪,华松健,钱菲. 计算机应用与软件. 2017(07)
[4]一种面向大规模计算机的监控管理系统[J]. 郑明玲,蒋句平,袁远,李宝峰. 湖南大学学报(自然科学版). 2015(04)
本文编号:2976175
【文章来源】:计算机工程与科学. 2020,42(10)北大核心
【文章页数】:8 页
【部分图文】:
“魔方-3”运维管理平台架构
主机运维管理平台通过数据采集引擎对多种采集方式进行封装,并对底层硬件以及作业调度软件进行数据采集。在保存这些信息时引入硬件池、指标池、线程池和数据池概念,对采集的各类数据进行分类存储,从而搭建运维管理平台的采集框架。通过采集框架对数据进行统一分发,为上层监控、巡检、统计分析等模块提供数据支撑。3.1 硬件数据采集
魔方-3运维管理平台
【参考文献】:
期刊论文
[1]面向集群服务器系统的监控平台综述[J]. 胡鹤,赵毅,牛铁,曹荣强. 科研信息化技术与应用. 2018(01)
[2]气象高性能计算机故障监控系统的设计与实现[J]. 许皓皓,李从初,姚浩立,徐振宇. 计算机时代. 2017(08)
[3]面向移动APP的高性能计算作业监控系统[J]. 王玮,李薛剑,俞昳豪,华松健,钱菲. 计算机应用与软件. 2017(07)
[4]一种面向大规模计算机的监控管理系统[J]. 郑明玲,蒋句平,袁远,李宝峰. 湖南大学学报(自然科学版). 2015(04)
本文编号:2976175
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2976175.html