计算机硬件设备故障管理机制研究
发布时间:2020-05-12 11:19
【摘要】: 在现代商业应用中,高性能容错计算机的应用越来越广泛。在高性能容错计算机领域,负责故障的检测、隔离和恢复的故障管理系统是操作系统级容错框架的核心环节。然而,现有的计算机故障管理机制存在很多缺陷,已经难以满足高性能容错计算机给故障管理带来的新要求和新挑战。 本文的目的是设计一种计算机设备故障管理机制,使之具备诊断计算机复杂多样的故障的能力,能够兼容各种不同故障机理,并充分利用容错设计给故障修复带来的便利。高性能容错计算机硬件结构复杂,容错设计在提高可靠性的同时往往又提高了硬件拓扑结构和硬件元件内部结构的复杂度,这加大了故障检测和诊断的难度,给故障管理机制的设计带来了巨大挑战。 本文提出了一个计算机故障管理的层次化框架模型,分析了各层次的特点和意义,对故障管理各组件在框架各层次的职能及各组件在同一层次的相互联系进行了分析,对其中一些关键技术点进行了讨论。 本文重点对框架中资源层的关键技术进行了研究。提出了基于故障扩散图的规则描述方法,研究了故障扩散图的组成结构和规律特性,并设计了基于故障扩散图的诊断算法;设计了一种故障扩散图描述语言,并实现了该语言的解释器,使用户可自行定义故障扩散图,从而为机器量身定做故障诊断规则;基于解释器生成的表示故障扩散图的数据结构,给出了基于故障扩散图的诊断算法实现。 为验证本文的设计,进行了仿真诊断实验。实验包括两部分:首先利用伪设备注入虚拟故障以进行诊断实验;然后分析了一种真实网卡设备的故障特性,对其进行了故障诊断仿真。实验结果初步验证了设计的有效性。
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP307
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP307
【相似文献】
相关期刊论文 前10条
1 施永贵;王洪峰;唐加福;;基于案例的CDMA网络故障管理决策支持系统[J];东北大学学报(自然科学版);2011年07期
2 王世文;马蓉;谢波;;京汉微波网管系统运行维护探讨[J];通信技术;2011年08期
3 夏艳;;乐山铁通强化工单录入规范培训[J];通信与信息技术;2011年04期
4 高弋坤;;APM提高企业技术性能Compuware加大对华投入[J];通信世界;2011年29期
5 施二铁;;现场设备管理方法探讨[J];华章;2011年23期
6 毛帅超;;如何理解计算机网络管理系统的应用[J];成才之路;2011年20期
7 魏毅;;铁路电力调度自动化研究[J];科技促进发展(应用版);2011年02期
8 赵凯;;基于集群技术的网络管理探索[J];电脑知识与技术;2011年26期
9 吴树勇;;浅谈计算机网络的安全与管理[J];电子科技;2010年S1期
10 王健;;试论基于EPON的本地光纤接入网的设计方案[J];信息与电脑(理论版);2011年06期
相关会议论文 前10条
1 李t,
本文编号:2660136
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2660136.html