云服务基础设施中故障诊断与识别策略管理研究
发布时间:2020-05-11 23:24
【摘要】:大型云服务基础设施经常出现故障,这成为了其管理成本的主要组成部分,并会导致托管服务违反服务级别协议(SLA)。近年来,各主要云服务提供商,包括IBM、亚马逊和谷歌的云服务基础设施数量出现了前所未有的增长。使云计算服务具有如此吸引力的一些独特特性包括:无限可用的资源池、灵活的规模经济、多租户和自组织特性,这些特性将云服务与传统的分布式系统(例如,数据中心和网格)区别开来。尽管云计算提供了以上服务并具有优势,但也存在挑战。复杂系统已经成为一种流行的计算模式,它支持工作负载自动伸缩,以适应需求的变化和云服务中资源的虚拟化。通过持续配置虚拟资源和物理工作负载的分配使工作实现弹性,但也增加了故障和异常发生的可能性,特别是在提供基础设施服务(IaaS)的层面。在云服务基础设施中,对故障诊断和识别相关问题的管理是至关重要的,这是本文研究的主要问题。本文论述了云服务基础设施故障诊断和识别策略管理的四个具体主题:(1)由于在异构环境中虚拟化技术的可扩展性和复杂性增大,使故障诊断变得更加困难。但因其在云基础设施的故障管理框架中的重要性,故障诊断和识别仍受到广泛关注。大多数故障诊断和识别方法都是基于主动探测技术,这些技术可用于快速准确地检测故障。然而,大多数方法都受到了通信开销和故障诊断的影响,导致了云服务系统性能的降低,例如IaaS。(2)由于数据量大,监测成为一项特殊的挑战。大型复杂系统的监测需要对故障检测和异常进行高精度、低延迟和近实时分析,还需要通过运行具有代表性的大型数据集处理应用程序进行优化。(3)异常/故障的诊断和自我修复是云服务基础设施的重要操作,需要自动化的故障检测和实时自我修复。(4)在IaaS中,有四个有效的测量标准来确定故障排除的有效性:优先级、故障概率、风险和配置操作的持续时间。一些研究小组的目标是通过将故障诊断扩展到故障排除,来确定如何监测集合、开发分类器并分析测量的属性,而不是单个的测量阈值。本文针对云服务基础设施中故障诊断和识别的策略管理进行了研究。提出了有效的方法,并探讨了潜在的动机和解决方案。通过全面的实证分析和新的定量方法进行了详尽的评价,并为今后的研究奠定了基础。达成了四项独立但相互关联的成果:(1)首先,论文提出并开发了一种新的混合模型,名为加速故障诊断和识别(AFDI),根据故障级别和异常的严重程度,监测VM和物理服务器托管的各种系统指标,并研究细粒度容错算法。基于这些发现,论文提出了一种新的方法来构建一种模型,该模型可以优化实时监控的性能,并基于Hadoop MapReduce和Apache Spark平台提高预测的准确性。(2)接下来,论文提出了一种新的方法,通过对其定性指标进行分析和分类来诊断异常/故障。使用机器学习算法确定的异常/故障的分布来创建时间序列诊断方法,以在运行时检测和分类异常/故障,从而估计每个自修复系统组件对系统功能的影响,并实现服务的高可用性。(3)论文提出了一种新的理论方法来构建故障检测与修复(故障排除)模型的步骤,将朴素贝叶斯分类(NBC)与多值决策图(MDD)结合起来,对云异常检测的故障排除进行构建和管理。实施这种方法的实际考量是提供一种决策理论的方法来对云服务基础设施的故障诊断步骤进行建模。(4)最后,论文为IaaS提出了一个基于Apache sparks的瓶颈故障排除性能框架,论文将其命名为CloudPT。CloudPT有许多优点:它具有高效的检测能力;它有一个统一的、全方位的循环反馈,与云生态系统的管理相协作;并且包括故障诊断性能测试。CloudPT的目标是通过扩展故障排除来监测集合、深入分析并对测量的属性进行分类,而不是单个测量阈值。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP393.07
,
本文编号:2659225
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP393.07
,
本文编号:2659225
本文链接:https://www.wllwen.com/guanlilunwen/yunyingzuzhiguanlilunwen/2659225.html
最近更新
教材专著