超配情况下多层数据中心可用性的量化分析

发布时间：2020-03-26 02:22

【摘要】：为了提高经济收益和使用效率,当代数据中心普遍采用超配来部署尽可能多的服务器。然而,超配会对系统可用性造成威胁,数据中心可能会因为过载而崩溃。目前的解决方案通常专注于管理数据中心工作负载以避免负载高峰。然而这些研究都没有考虑数据中心内组件的影响,而组件故障确实会影响这些策略的有效性。同时目前也没有任何研究可以回答数据中心在给定的可用性约束下,到底可以超配多少服务器。在本研究中,我们提出了一种超配情况下量化分析多层数据中心可用性的方法。我们使用了马尔科夫链和随机回报网来模拟数据中心组件的故障和修复过程。处于上层的设备(PDU,交换机)使用马尔科夫链来建模。底层服务器被划分在两个池内:主服务器池和备用服务器池,运行着的服务器处于主服务器池,断电的服务器处于备用服务器池。一旦主池内有服务器故障,备用池内的服务器将转移到主池,故障服务器则被送去修复。随机回报网被用来建模这两个服务器池。本研究采用了Wiki和Google数据中心的负载数据来测试,并得出了数据中心超配比和可用性的关系,可以帮助数据中心运营商在满足给定的可用性约束下,选择合适的超配比。本文的主要工作和贡献如下:1)提出了一个三层模型来对数据中心可用性进行分析,分析的同时将组件故障因素考虑在内。我们使用马尔科夫链和随机回报网来模拟数据中心组件的故障和修复过程,并使用两个状态池来为服务器的不同状态建模。2)为了解决马尔科夫模型过于复杂的问题,我们采用两个随机回报网子模型来为服务器层建模。根据这些模型的组件参数、网络拓扑结构以及模型之间的状态转换,我们推导出数据中心可用性和超配比之间的关系。3)我们使用Google和Wiki的工作负载来测试,当超配比改变时数据中心可用性所发生的变化。通过评估,我们可以定量给出在不同可用性约束的情况下,适合数据中心的超配比。4)使用经典超级电容模型来为UPS建模,研究了UPS对数据中心可用性的影响,通过模拟给出了UPS存在时,数据中心可用性与超配比的量化关系。5)对分析单个数据中心的方法进行了扩展,将其应用于多个数据中心的分析。通过分析和模拟,我们得出了多个数据中心可用性与超配比的量化关系。实验结果还表明,将一定数量的服务器分布在多个数据中心时的可用性要高于将其只集中于一个数据中心时的可用性。
【图文】：

数据中心,总损失,美国,使用率

医生的时间将会被浪费，，若超额预定了太多的病人，又会延长间和导致医生加班。为此，我们可以根据病人之前的预约记录，大概推测采用超配策略。超配策略的常见应用场景还有机票预订，航空公司提供比预订机票，使每一班飞机尽量坐满。当登机的客户比飞机座位数要多的时需要被转移到其他班次，这样必然会给客户带来不便，为了减少这种情空公司会相互之间形成同盟，以提供更多的班次给客户选择[4]。云数据中心超配其他行业类似，云计算为超配提供了充足的条件。在最近几年，一些云服注意到，他们的资源 (内存、CPU、带宽等) 只被利用了一小部分[5]。据统的使用率只有 53%，而 CPU 的使用率在绝大多数数据中心也只有 40%，[6, 7]，84% 的虚拟机 CPU 最大使用率不超过 20%。因此，资源的低利用率服务提供商亟待解决的问题，而超配策略则有利于最大化资源利用率，这务提供商的投资成本，又能增加经济收益[8 10]。

数据中心,占比,故障

[11]。数据中心的宕机将会给用户带来巨大的经济损失，同时也会影响数据中心运营商的名誉。图1 1是艾默生网络能源和波特蒙研究所于 2016 年调研得到的美国数据中心宕机每分钟造成的损失，由图可知，数据中心宕机造成的损失逐年增加，大型数据中心的宕机会导致更大的损失。波特蒙的另一项调研评估表明，在引发宕机的原因中，UPS 系统故障占比为总故障的四分之一 (如图1 2)，是所有故障中最常见的，而 IT 设备故障造成的宕机损失在所有故障中是最高的，UPS 故障其次。图 1 2 导致数据中心宕机的各类故障及占比Fig 1 2 Different Kinds of Failures Which Cause Data center Shutdown and their proportions— 3 —
【学位授予单位】：上海交通大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP308

【参考文献】