大规模网络系统的可靠性建模的若干问题的研究与仿真
发布时间:2020-05-21 15:57
【摘要】:在构筑智慧城市的进程中,云计算、大数据等新一代信息通讯技术不断发展,提供服务所需的基础设施变得极为庞大,由此形成了一种大规模网络系统(Large Scale Network System,LSNS)。相比传统IT系统,除了需要管理数据中心中大规模的、复杂的基础设施资源,还需要达到多种多样的服务需求,特别是服务可靠性的需求。为了实现可靠的服务,对大规模网络系统的可靠性指标构建理论模型是一种直观、高效的评估方法。但现有的研究中,可靠性模型的适用性往往比较局限。一方面,现有的可靠性研究中,一般以预测系统故障的发生或者减少系统故障的发生为目的,当系统的可靠性降低时,是以增加物理资源的冗余度来提高系统可靠性的。在大规模网络系统中,以虚拟机资源为代表的软件类资源的自身老化带来的系统可靠性降低问题,通过增加物理资源冗余度对系统可靠性的提升往往收效甚微。另一方面,通过对大量的物理资源冗余备份,物理资源的利用率往往较低,导致资源空载,能耗成本剧增,也不符合节能减排的要求。这导致可靠性与能效呈现相互制约的关系。针对这些存在的关键性问题,本文以大规模网络系统的一个数据中心为研究对象,以提供可靠性感知的能效服务(Reliability-aware and Energy-efficient Service,RES)为目的,综合运用了故障树分析法、Markov建模理论、解析建模等方法,构建了虚拟机系统的可靠性模型、物理机系统的可靠性模型、可靠性感知的能耗模型;为了最大化提升系统的可靠性和能效,基于采用了冗余备份策略的虚拟机系统,分析了如何最大化降低数据中心中由于发生共因失效而导致的虚拟机系统不能正常服务的影响,提出了面向SLA的可靠性保障机制、可靠性感知的能效资源分配算法、物理机决策算法等可靠性保障和能效提升的优化策略。为了评估以上模型和算法的有效性,通过在Cloudsim中引入大规模的谷歌集群数据Google Trace,并扩展了故障注入、能耗模型等模块,分别对模型和算法进行了大量的仿真实验。通过对实验结果分析,较好地验证了本文提出的模型或算法的有效性。
【图文】:
智慧城市与云计算
以认为是物理主机修复完成,可以再次使用而加入集群;移除事件可以认为是物理机主机发生硬件失效,导致物理主机被移除出集群。根据 Jobs 和 Tasks 数据,模拟任务请求达到数据中心、资源使用请求等。大规模的任务请求导入 Cloudsim进行关于可靠性和能耗的仿真实验,可以更真实的反映现实世界的情况,,验证可靠性与能耗模型的正确性,最终指导大规模网络系统的数据中心的可靠性和能耗的优化。通过分析 Google Trace 的 Machines 数据,针对不同物理主机在不同时间发生的总共 37780 次事件,得到其中一台物理主机发生失效事件的时间序列图如下。图 5-1 Google Trace 主机失效时间序列(部分)进一步地,我们分析主机失效时间间隔,得到如图 5-2 的主机失效间隔时间的结果。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP308
本文编号:2674543
【图文】:
智慧城市与云计算
以认为是物理主机修复完成,可以再次使用而加入集群;移除事件可以认为是物理机主机发生硬件失效,导致物理主机被移除出集群。根据 Jobs 和 Tasks 数据,模拟任务请求达到数据中心、资源使用请求等。大规模的任务请求导入 Cloudsim进行关于可靠性和能耗的仿真实验,可以更真实的反映现实世界的情况,,验证可靠性与能耗模型的正确性,最终指导大规模网络系统的数据中心的可靠性和能耗的优化。通过分析 Google Trace 的 Machines 数据,针对不同物理主机在不同时间发生的总共 37780 次事件,得到其中一台物理主机发生失效事件的时间序列图如下。图 5-1 Google Trace 主机失效时间序列(部分)进一步地,我们分析主机失效时间间隔,得到如图 5-2 的主机失效间隔时间的结果。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP308
【参考文献】
相关硕士学位论文 前1条
1 高顺川;动态故障树分析方法及其实现[D];国防科学技术大学;2005年
本文编号:2674543
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2674543.html