高可用服务器故障管理板的设计与实现
发布时间:2018-01-10 12:20
本文关键词:高可用服务器故障管理板的设计与实现 出处:《哈尔滨工业大学》2012年硕士论文 论文类型:学位论文
【摘要】:服务器已经被广泛应用于电信、银行、航天、气象、军事等领域。在这些领域中,服务器作为关键设备承担着主要的工作任务。但是无论是在航天、军事等国防领域还是在电信、银行等民用领域,决定这些行业选择服务器的一个重要因素就是服务器的可用性。如何保证服务器的可用性,保障其持续工作的能力已经成为人们的重要研究课题。 服务器的管理是保证服务器可用性的关键,为实现服务器的有效管理,设计了高可用服务器故障管理平台。本文结合故障管理的一般过程,分析了自主计算的相关概念和管理模型,,讨论了故障管理中需要解决的问题,并对故障监控、故障诊断和故障恢复等技术进行了研究。在此基础上,论文针对具有分布式结构的高可用目标系统设计了故障管理方案,采用双层架构实现服务器故障管理平台对服务器进行管理。管理平台由本地管理模块LMM和全局管理模块GMM组成。LMM对应于每个节点,负责直接对计算节点的状态进行监控;全局有两个GMM,负责对LMM收集的状态信息进行分析、诊断,然后对故障进行恢复。 本文设计实现了服务器故障管理的硬件平台,并在其基础上设计了服务器故障管理的软件框架,结合硬件平台,实现了服务器状态信息的采集功能,包括从带内和带外两方面角度对服务器的状态进行采集;研究了故障定位和故障诊断的过程,实现了故障诊断的基本功能;制定了部分故障的管理策略;提供了用户远程管理的接口。最后本文对管理平台的功能做了简单的测试。
[Abstract]:The server has been widely used in the fields of telecom , banking , aerospace , meteorology , military , etc . In these fields , the server plays the main task as a key equipment . However , it is an important factor to determine the server availability in the fields of defense , such as space , military and other civilian areas . How to guarantee the availability of the server and guarantee the ability of its continuing work has become an important research topic . The management of the server is the key to ensure the availability of the server . In order to realize the effective management of the server , a high - availability server fault management platform is designed . Based on the general process of fault management , the paper analyzes the relevant concepts and management models of the self - calculation , discusses the problems that need to be solved in the fault management , and controls the fault monitoring , fault diagnosis and fault recovery . The management platform is composed of the local management module LMM and the global management module gmm . The management platform is composed of the local management module LMM and the global management module gmm . The management platform is composed of a local management module LMM and a global management module gmm . The management platform is composed of a local management module LMM and a global management module gmm . In this paper , the hardware platform of server fault management is designed , and the software framework of server fault management is designed on the basis of it , and the collection function of server state information is realized by combining hardware platform . The fault location and fault diagnosis process is researched , the basic function of fault diagnosis is realized , and the interface of remote management is provided . Finally , the function of management platform is tested .
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP368.5
【参考文献】
相关期刊论文 前10条
1 彭钢;关于知识推理的几种常用不精确推理模型的探讨[J];广州师院学报(自然科学版);1998年07期
2 樊丽萍,袁爱进;COTS技术在远程技术支持系统中的应用[J];电力自动化设备;2005年07期
3 蔡桂芳;;基于模糊神经网络的故障预测方法研究[J];机电产品开发与创新;2008年04期
4 张海俊;史忠植;;自主计算环境[J];计算机工程;2006年07期
5 刘文洁;李战怀;;虚拟化技术在基于自律计算的高可用性系统中的应用[J];计算机应用;2006年02期
6 樊星;李战怀;刘全中;;服务器系统管理的自律计算模型[J];计算机应用;2006年03期
7 胡伟;秦开怀;袁国栋;;集群绘制系统中的自主计算[J];清华大学学报(自然科学版);2006年07期
8 廖备水;李石坚;姚远;高济;;自主计算概念模型与实现方法[J];软件学报;2008年04期
9 于治楼;陈乃阔;牛玉峰;;基于IPMI的服务器远程管理的研究与实现[J];信息技术与信息化;2010年01期
10 李云春;张德生;李强;;基于自主计算的集群管理软件的设计与实现[J];中山大学学报(自然科学版);2009年S1期
本文编号:1405264
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1405264.html