虚拟集群环境下多虚拟机协同检查点容错系统
发布时间:2020-05-22 05:50
【摘要】:随着虚拟集群中虚拟机数目的增加,单个虚拟机的出错往往会使得整个虚拟集群失效的概率也随之增加。因此,提高虚拟集群的可靠性,为其提供容错支持,在错误发生时保证程序运行的连续性和正确性是虚拟集群系统研究、发展、完善过程中必须要解决的一个重要问题。 多虚拟机协同检查点容错系统VirtCFT提供了一种对上层应用和整个操作系统具有透明性的,特别是针对拥有消息通信机制的虚拟集群环境的新的容错解决方案。VirtCFT周期性地对各虚拟机进行协调同步,并通过避免网络通信信道中间数据包对虚拟机检查点状态的影响来使得整个虚拟集群中的虚拟机在达到全局一致性状态时做检查点备份。VirtCFT以上述方式来保证虚拟集群出错恢复时的正确性,在错误发生时能够迅速检测到错误的产生并执行恢复操作,使得虚拟集群能够保持正常运行。不同于传统容错技术需要修改应用和操作系统代码,VirtCFT提供了一套对应用和操作系统完全透明的容错平台,其所有的控制命令以及功能模块都在其所保护的虚拟机非特权域之下的虚拟层中实现,因此,现有应用软件或者操作系统不需要做出任何修改或调整的情况下就可以直接在该系统平台上运行并获得容错保护。另外,VirtCFT结合内存和IO虚拟化技术,采用虚拟机检查点增量式备份策略进行CPU、内存、磁盘等状态在内的全系统状态的冗余备份,同时对虚拟机网络在特权域中进行集中式管理,在提供透明性的同时降低了虚拟集群容错系统的运行时间开销。 VirtCFT多虚拟机协同检查点容错系统基于Xen虚拟化平台实现。采用Python编写用户层工具,采用C语言编写内核层功能模块。功能测试表明:系统实现了虚拟机出错后对虚拟集群的容错恢复,并保证最终运行结果的正确性。对于计算密集型测试,提供透明性及通用性容错所引入的运行时间开销不超过30%。出错恢复时间为4.51秒~ 5.46秒。
【图文】:
图 2.1 虚拟集群容错场景图在设计多虚拟机协同检查点容错系统的过程中,最重要的一项参数即是要保证恢复后运行结果的正确性。虚拟机之间的消息交互会使得对整个虚拟集群做检查的过程中产生一致性问题。为此,在对整个虚拟集群建立检查点的时候,一定要虑虚拟机之间的协调同步并保证所有虚拟机检查点备份镜像所组成的状态是全局致性的。Chandy 和 Lamport[27]给出了关于全局一致性检查点的正式的解释。概括来说,所谓一致性全局状态就是指,所有虚拟机检查点中不含有这样的一个信息,在某个检查点中是记录被接收了,可是却找不到一个包含记录它被发送的检查点。恢复到此状态并从它继续执行,后续执行过程将与它之前的执行过程组成一个合的执行全过程。在由虚拟机所组成的虚拟集群网络环境中,,若只是对单个虚拟机别做检查点备份,那么是可能引起全局状态的不一致性的,这是由通信通道中消记录的错误顺序或者状态丢失造成的。与一致性全局状态对应,在虚拟集群环境下,如果对每个虚拟机做检查点所组
图 2.1 Xen 体系结构在 Xen 中,Xen Hypervisor 是一个介于操作系统和硬件之间的软件层,它拟机之间进行 CPU 调度和内存分配。Xen Hypervisor 不仅抽象出了硬件制虚拟机的执行,它为其上运行的所有虚拟机提供了一个共享的处理环境rvisor 并不会直接处理网络、存储设备、视频以及其他 I/O。实际的硬件是在 Xen 所附带的特殊控制域 Domain0 中。Domain 0 是一个修改过的 L是唯一运行在 Xen Hypervisor 之上的特权虚拟机,它拥有直接访问物理 I/限,同时负责和系统上运行的其他虚拟机进行交互。Domain 0 中包含两个后端驱动和块设备后端驱动,分别负责处理来自非特权域 Domain U 的网盘请求。网络后端驱动直接和本地网络硬件进行通信以处理所有来自 Do户操作系统的网络请求。块设备后端驱动和本地存储设备进行通信以处ain U 的读写请求,所以可见,对虚拟机的具体网络和磁盘请求的处理最 Domain0 中的。除此之外,Xen 在 Domain0 的用户空间还提供了一系列控制工具(Linux 守护程序)。这些服务运行在 Domain 0 中,支持对虚拟
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP302.8
【图文】:
图 2.1 虚拟集群容错场景图在设计多虚拟机协同检查点容错系统的过程中,最重要的一项参数即是要保证恢复后运行结果的正确性。虚拟机之间的消息交互会使得对整个虚拟集群做检查的过程中产生一致性问题。为此,在对整个虚拟集群建立检查点的时候,一定要虑虚拟机之间的协调同步并保证所有虚拟机检查点备份镜像所组成的状态是全局致性的。Chandy 和 Lamport[27]给出了关于全局一致性检查点的正式的解释。概括来说,所谓一致性全局状态就是指,所有虚拟机检查点中不含有这样的一个信息,在某个检查点中是记录被接收了,可是却找不到一个包含记录它被发送的检查点。恢复到此状态并从它继续执行,后续执行过程将与它之前的执行过程组成一个合的执行全过程。在由虚拟机所组成的虚拟集群网络环境中,,若只是对单个虚拟机别做检查点备份,那么是可能引起全局状态的不一致性的,这是由通信通道中消记录的错误顺序或者状态丢失造成的。与一致性全局状态对应,在虚拟集群环境下,如果对每个虚拟机做检查点所组
图 2.1 Xen 体系结构在 Xen 中,Xen Hypervisor 是一个介于操作系统和硬件之间的软件层,它拟机之间进行 CPU 调度和内存分配。Xen Hypervisor 不仅抽象出了硬件制虚拟机的执行,它为其上运行的所有虚拟机提供了一个共享的处理环境rvisor 并不会直接处理网络、存储设备、视频以及其他 I/O。实际的硬件是在 Xen 所附带的特殊控制域 Domain0 中。Domain 0 是一个修改过的 L是唯一运行在 Xen Hypervisor 之上的特权虚拟机,它拥有直接访问物理 I/限,同时负责和系统上运行的其他虚拟机进行交互。Domain 0 中包含两个后端驱动和块设备后端驱动,分别负责处理来自非特权域 Domain U 的网盘请求。网络后端驱动直接和本地网络硬件进行通信以处理所有来自 Do户操作系统的网络请求。块设备后端驱动和本地存储设备进行通信以处ain U 的读写请求,所以可见,对虚拟机的具体网络和磁盘请求的处理最 Domain0 中的。除此之外,Xen 在 Domain0 的用户空间还提供了一系列控制工具(Linux 守护程序)。这些服务运行在 Domain 0 中,支持对虚拟
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP302.8
【相似文献】
相关期刊论文 前10条
1 李征,吴俊敏,黄刘生,吴敏;基于反射的容错CORBA系统的设计与实现[J];计算机工程;2005年17期
2 荣昊亮;俞承芳;;基于胚胎细胞阵列可容错系统的FPGA验证[J];复旦学报(自然科学版);2006年01期
3 黄大鹏;;分析集群技术在电力综合自动化系统中的应用[J];广东科技;2008年03期
4 陈湛;廖国宁;童勤义;;容错VLSI的可靠性分析模型及其应用[J];微电子学与计算机;1990年06期
5 王生铁,邹毅,张计科;水电站(N+M)容错系统优化模型求解的遗传算法[J];内蒙古工业大学学报(自然科学版);2004年03期
6 王衍;张彪;张友鹏;周丽;;基于Markov model的容错计算机联锁系统可靠性分析[J];电气传动自动化;2007年02期
7 李显彤;;工业控制计算机容错技术研究及应用[J];科技咨询导报;2007年29期
8 顾子天;NMR容错系统的一种故障恢复方法[J];华东船舶工业学院学报(自然科学版);1992年04期
9 欧阳s
本文编号:2675538
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2675538.html