当前位置:主页 > 科技论文 > 计算机论文 >

基于机器学习的E级系统故障预测关键技术研究

发布时间:2023-04-18 19:46
  随着科学工程应用对高性能计算的需求不断提升,实现E级计算机系统成为各科技强国下一步的科研目标。由于新型使能技术尚未成熟,目前研制E级系统的基本手段仍为处理器集成。物理器件受到当前制备工艺的限制,其可靠性难以保证或提升,然而随着系统规模的进一步扩大,愈发频繁的系统故障将使得系统可靠性面临严峻的考验。主流的回滚恢复容错方法因其备份次数频繁、备份信息多、恢复开销大等不足,无法再适用于未来的E级系统。 本文着重从主动容错的角度出发,同时考虑将主动容错方法与传统被动容错方法相结合,以应对在大规模系统设计与实现过程中所存在的可靠墙问题。 本文首先构建了结点级层次的自治主动容错模型,接着结合被动容错方法,提出了主被动容错方式相融合的“先主动后被动”双层次容错方案。针对主动容错过程中的故障预测这一关键环节,本文构建了基于机器学习的在线故障预测模型,并分别对其处理流程以及各系统结点的功能模块框架进行了设计。 系统状态信息的实时收集与处理是实现有效的故障预测的前提条件。本文设计并实现了结点状态信息的实时采集及定期汇总方法,并配置其自动执行,以支持动态、在线的故障预测过程。通过设计与实现IASF方法,本文对...

【文章页数】:124 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 课题背景
    1.2 大规模并行系统可靠性设计
        1.2.1 国内外研究现状
        1.2.2 容错技术发展趋势
    1.3 课题研究内容
        1.3.1 课题来源
        1.3.2 课题内容与目标
        1.3.3 重点问题与创新点
    1.4 论文结构
第二章 基于机器学习的E 级系统容错模型设计
    2.1 故障与容错
        2.1.1 故障、差错、失效
        2.1.2 并行系统故障模型
        2.1.3 容错控制技术
        2.1.4 冗余容错方法
    2.2 E 级系统的自治主被动容错模型
        2.2.1 现有容错模型缺陷
        2.2.2 结点级主动容错模型
        2.2.3 主被动融合的双层次容错模型
    2.3 基于机器学习的E 级系统在线故障预测模型
        2.3.1 机器学习技术
        2.3.2 基于机器学习的在线故障预测模型
        2.3.3 支持规模扩展的多学习结点系统模型
    2.4 在线故障预测关键技术
    2.5 本章小结
第三章 系统状态信息的收集及预处理方法的设计与实现
    3.1 系统状态信息的采集
        3.1.1 状态信息描述
        3.1.2 Linux 日志系统
        3.1.3 结点日志采集
    3.2 系统状态信息的汇总
        3.2.1 网络及文件操作接口
        3.2.2 日志文件收发的实现
        3.2.3 日志收发过程的配置
    3.3 系统日志信息的预处理
        3.3.1 无用日志信息
        3.3.2 相关方法介绍
        3.3.3 IASF 方法的设计与实现
    3.4 本章小结
第四章 系统状态特征的获取及提取方法的设计与实现
    4.1 故障特征参数的设计
        4.1.1 常用故障特征参数
        4.1.2 基于系统日志的故障特征参数设计
    4.2 日志特征参数的获取
        4.2.1 系统时间窗口的划分与设定
        4.2.2 日志故障特征参数的计算
        4.2.3 故障特征参数集的构建
    4.3 故障特征参数的提取
        4.3.1 主成分分析方法
        4.3.2 线性判别分析方法
        4.3.3 故障特征参数的提取方式
    4.4 本章小结
第五章 故障预测规则的生成与应用方法的设计与实现
    5.1 故障特征参数的离散化
    5.2 决策树的机器学习方法
        5.2.1 算法处理过程
        5.2.2 算法程序实现
    5.3 基于决策树的规则生成
    5.4 故障预测规则生成的总体流程
    5.5 基于规则的结点故障预测
    5.6 本章小结
第六章 实验测试与方法评估
    6.1 实验系统介绍
    6.2 实验测试流程
    6.3 实验测试结果
        6.3.1 日志冗余信息过滤
        6.3.2 故障特征参数提取
        6.3.3 故障预测规则生成
        6.3.4 系统结点故障预测
    6.4 方法对比与评估
        6.4.1 日志预处理方法评估
        6.4.2 特征提取方法评估
        6.4.3 故障预测模型参数评估
    6.5 本章小结
结束语
致谢
参考文献
作者在学期间取得的学术成果



本文编号:3792911

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3792911.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ecbf0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com