当前位置:主页 > 科技论文 > 计算机论文 >

高性能服务器故障诊断方法的研究与设计

发布时间:2020-10-26 15:38
   高性能服务器的应用领域越来越广,目前已经广泛应用于银行、军事、航天、气象服务等领域。在这些领域中,高性能服务器都是用来处理关键的业务,系统数据丢失或者异常停机都会造成严重的后果。因此对高性能服务器的可用性提出了很高的要求。高可用性需要高效的故障检测、故障诊断、故障恢复等技术来实现。 高性能服务器一般都采用集群的形式实现,因为集群在价格、可扩展性等方面都要比其他形式的系统有明显的优势。本文主要针对高性能集群服务器系统研究一种基于操作系统的快速高效的故障诊断方法。从系统可以提供不间断服务的角度出发,研究针对故障诊断的系统监控方法,即故障监控方法。在故障监控的基础上,研究故障诊断的方法。目标是尽可能小的系统开销,尽可能大的故障检测覆盖率。 实现了服务级和节点级的诊断粒度。整个诊断从流程上分为故障监控和故障诊断,从实现的诊断粒度上分为了单机故障诊断和系统级故障诊断。能够监控到节点的硬件状态信息,如CPU、内存、网络设备、电源等;能够监控基于linux的操作系统中的各种进程的信息,包括核心系统服务进程,用户配置的进程等。从可用性角度设计了针对不同监控信息的诊断规则,实现了单机故障的快速诊断。对整个集群系统设计了心跳模块以及系统级的故障诊断。通过设计的心跳机制可以确定其他节点是否故障。通过单机故障诊断和系统级故障诊断的配合能够快速的诊断出故障的节点,达到集群中所有节点对故障状态的一致性描述。通过整个诊断系统,能够准确及时的获得诊断结果,及时的将故障节点隔离出系统,进而提高系统的可用性。
【学位单位】:哈尔滨工业大学
【学位级别】:硕士
【学位年份】:2011
【中图分类】:TP368.5
【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 课题背景
    1.2 高可用技术概况
        1.2.1 可用性与可靠性
        1.2.2 冗余技术
        1.2.3 集群技术
        1.2.4 故障检测技术
        1.2.5 故障恢复技术
    1.3 本文组织结构
第2章 故障诊断关键技术研究
    2.1 引言
    2.2 集群系统
    2.3 系统监控技术
        2.3.1 基于命令行的信息采集技术
        2.3.2 基于proc 文件系统的信息采集技术
        2.3.3 基于Linux 内核的信息采集技术
    2.4 故障诊断方法
        2.4.1 系统级故障诊断
        2.4.2 单机故障诊断
    2.5 故障恢复技术
    2.6 本章小结
第3章 高性能服务器故障诊断方案的设计
    3.1 引言
    3.2 故障集
    3.3 故障诊断总体框架
    3.4 高性能服务器单机自诊断的设计
        3.4.1 单机故障监控模块的设计
        3.4.2 单机故障诊断模块的设计
    3.5 高性能服务器系统级故障诊断的设计
        3.5.1 心跳模块的设计
        3.5.2 系统级故障诊断模块的设计
    3.6 本章小结
第4章 高性能服务器故障诊断方案的实现及实验结果分析
    4.1 单机自诊断的实现
        4.1.1 单机故障监控模块的实现
        4.1.2 单机故障诊断模块的实现
    4.2 系统级故障诊断的实现
        4.2.1 心跳模块的实现
        4.2.2 系统级故障诊断模块的实现
    4.3 实验及结果分析
    4.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢

【参考文献】

相关期刊论文 前10条

1 张颖;李义杰;包剑;;计算机容错技术的研究与应用[J];辽宁工程技术大学学报;2004年S1期

2 李东亮;王海花;;基于/proc文件系统及对内核信息的获取[J];河北工程大学学报(自然科学版);2007年02期

3 郭松;谢维波;;Linux下Proc文件系统的编程剖析[J];华侨大学学报(自然科学版);2010年05期

4 魏东林,卢正鼎,董俊,聂岚;在用户空间扩展Linux操作系统功能方法研究[J];华中科技大学学报(自然科学版);2002年07期

5 郭立,金海,韩宗芬;集群系统的单一系统映像研究[J];华中科技大学学报(自然科学版);2003年04期

6 董剑;左德承;刘宏伟;杨孝宗;任潇;;一种基于无效链路的分布式故障诊断一致性协议[J];计算机研究与发展;2007年06期

7 左德承,杨孝宗,高巍;基于非完备性测试的一种分布式计算机系统诊断算法的设计[J];计算机工程与应用;2001年03期

8 谢斌,高扬;Linux高可用集群心跳机制研究[J];计算机工程与应用;2004年01期

9 牛峰,胡昌振;内核信息获取的通信方法[J];计算机工程;2003年08期

10 杨建军,刘雄;基于Unix的负载均衡集群方案设计[J];计算机工程与设计;2005年07期


相关博士学位论文 前1条

1 阳惠;系统级故障诊断算法研究[D];重庆大学;2009年


相关硕士学位论文 前1条

1 陈熠;大规模机群监控系统的研究与实现[D];中国科学院研究生院(计算技术研究所);2004年



本文编号:2857184

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2857184.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cb64a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com