基于Xen的虚拟机间MPI通信机制的研究与实现

发布时间：2017-08-24 10:07

本文关键词：基于Xen的虚拟机间MPI通信机制的研究与实现

【摘要】：虚拟化技术能够有效降低系统和应用软件的维护和管理成本，增强系统可靠性以及优化资源配置，，基于虚拟化环境构建的大规模集群日趋流行。然而虚拟化技术尚未在性能关键的应用系统中得到广泛应用，特别是高性能计算领域。MPI是当今高性能计算环境中最主流的并行计算模型。在并行计算中，MPI进程需要频繁地通信，而I/O虚拟化所产生的额外开销，会显著地降低虚拟机间MPI进程的通信性能。大量已有工作对改善虚拟机间通信性能或MPI结点内通信性能进行了研究，然而同时结合两者的研究工作并不多。一个通用的虚拟机间通信框架往往没有针对MPI应用做特殊优化，而结点内MPI通信框架则无法在虚拟化环境中使用。本文在同时考虑了虚拟化环境的特点以及MPI应用的通信特征的基础上，通过改进虚拟机间通信模型，对同一台物理机上的不同虚拟机内的MPI进程间的通信性能进行了优化。改进后的模型将通信任务代理给一个隔离的后端通信模块，通信虚拟机内部的开销大幅降低，而进程的通信与计算重叠能力也得到提升。同时，该模型更有利于MPI长消息传输与集合通信的优化，能够有效减少拷贝次数，并均衡系统中虚拟机的通信负载。此外，该模型保留了原生环境下利用硬件加速技术的能力，存在进一步优化通信性能的潜力。在改进模型的基础上，我们进一步给出了基于Xen的虚拟机间MPI通信框架XNEM的设计和实现。XNEM前后端驱动以内核模块的形式运行在隔离的虚拟机中，不需要对操作系统或虚拟机监视器做任何修改。框架提供了简单而灵活的编程接口，能够方便快速地将框架移植到已有的MPI库中。同时，我们为MPICH库编写了XNEM LMT模块，将XNEM通信框架与MPICH库整合。使用MPICH库的MPI进程可以在虚拟环境下将XNEM LMT模块作为高性能的虚拟机间通信通道。我们选取了多个微基准程序和HPC基准程序对XNEM框架进行实验验证。NetPIPE测试结果显示，对于MPI长消息传输，XNEM的通信吞吐率和延迟显著优于Xen虚拟网络以及基于共享缓冲的通信模型。IMB基准测试结果显示12个被测MPI集合操作在XNEM框架下的延迟均好于Xen虚拟网络，其中的10个表现出更好的通信与计算重叠率。我们还对通信时的CPU利用率进行了测量，并分析可能的系统瓶颈。另外，我们调整I/O环大小并重复吞吐率和延迟测试，对XNEM框架的性能进行了调优。最后，我们运行了NPB测试套件中的FT基准程序，验证了XNEM框架在实际应用中的可用性以及对通信性能的提升。
【关键词】：虚拟化 虚拟机间通信 高性能计算 Xen MPI
【学位授予单位】：上海交通大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TP302
【目录】：

摘要5-7
ABSTRACT7-9
目录9-12
插图索引12-14
表格索引14-15
第一章绪论15-19
1.1 研究背景与意义15-17
1.2 研究目标17
1.3 研究内容17-18
1.4 论文组织结构18-19
第二章 Xen 虚拟机间通信机制概述19-31
2.1 Xen 虚拟化技术19-24
2.1.1 体系结构19-21
2.1.2 关键技术21-24
2.2 Xen 网络通信性能分析24-25
2.3 相关工作25-30
2.3.1 XenLoop26-27
2.3.2 MMNet27-28
2.3.3 XenSocket28-29
2.3.4 IVC29-30
2.4 本章小结30-31
第三章虚拟机间 MPI 通信框架的设计31-43
3.1 设计目标31
3.2 XNEM 通信框架设计31-34
3.2.1 框架概览31-33
3.2.2 通信流程33-34
3.3 XNEM 通信模型分析34-42
3.3.1 数据拷贝35-37
3.3.2 通信特征37-38
3.3.3 MPI 集合通信38-40
3.3.4 I/O 硬件加速40-42
3.4 本章小结42-43
第四章虚拟机间 MPI 通信框架的实现43-61
4.1 XNEM 框架的实现43-52
4.1.1 模块初始化43-44
4.1.2 共享数据结构44-46
4.1.3 XNEM 前端驱动的实现46-49
4.1.4 XNEM 后端驱动的实现49-52
4.2 XNEM 与 MPICH 整合52-60
4.2.1 MPICH 架构52-54
4.2.2 XNEM LMT 模块的实现54-57
4.2.3 控制信息传递57-60
4.2.4 模块选择的虚拟化感知60
4.3 本章小结60-61
第五章实验验证61-77
5.1 实验环境61-65
5.1.1 系统环境61
5.1.2 基准程序61-65
5.2 实验结果与分析65-75
5.2.1 吞吐率与延迟65-68
5.2.2 过载条件下的吞吐率和延迟68-70
5.2.3 Dom0 的 CPU 利用率70-71
5.2.4 I/O 环对通信性能的影响71-72
5.2.5 MPI 集合通信72-73
5.2.6 HPC 应用程序73-75
5.3 本章小结75-77
第六章总结与展望77-79
附录A 部分源代码79-81
参考文献81-85
致谢85-87
攻读学位期间发表的学术论文目录87

【共引文献】

中国期刊全文数据库前4条

1 程耀东;陈刚;;科研大数据平台关键技术与实践[J];工程研究-跨学科视野中的工程;2014年03期

2 汤恩义;BARR Earlz;苏振东;李宣东;;程序数值误差的扰动检测与优化[J];中国科学:信息科学;2014年11期

3 崔奇;谷建华;;MPI集合通信剖析技术的研究[J];计算机技术与发展;2013年10期

4 Ping Lu;Zhenjiang Dong;Shengmei Luo;Lixia Liu;Shanshan Guan;Shengyu Liu;Qingcai Chen;;A Parallel Platform for Web Text Mining[J];ZTE Communications;2013年03期

中国博士学位论文全文数据库前6条

1 罗耀华;高性能计算在高光谱遥感数据处理中的应用研究[D];成都理工大学;2013年

2 徐新海;硬件故障在程序中的传播行为分析及容错技术研究[D];国防科学技术大学;2012年

3 李承功;流场的格子Boltzmann模拟及其GPU-CUDA并行计算[D];大连理工大学;2013年

4 林宇斐;大规模并行计算通信可扩展性—分析、优化与模拟[D];国防科学技术大学;2013年

5 王希忠;基于MPI的分段线性混沌映射加密算法的研究[D];哈尔滨理工大学;2014年

6 胡子翔;塑料注射成形模拟中方程组的高效求解方法[D];华中科技大学;2014年

中国硕士学位论文全文数据库前10条

1 赵金鹏;基于MPI的矩阵乘法效率研究[D];成都理工大学;2013年

2 杜庆良;蛋白质结构预测的并行模拟退火算法研究[D];福建农林大学;2013年

3 刘燕;高性能计算集群的建立及CdGa_2S_4性质的计算[D];山西大学;2013年

4 刘雪巍;舰船图像处理并行任务调度算法研究[D];哈尔滨工程大学;2013年

5 刘源;基于Hadoop的海量数据分析系统设计与实现[D];大连理工大学;2013年

6 翟颉;基于JPEG2000的高光谱数据并行解压缩系统研究[D];中国科学院研究生院（西安光学精密机械研究所）;2013年

7 潘晨旭;多向药理学计算中药物靶标预测计算精度的改进及三维分子相似性的分布式计算研究[D];华东理工大学;2014年

8 李昂;基于MPI和OpenMP的2.5维CSAMT正反演混和并行算法的研究[D];吉林大学;2014年

9 龚兴全;基于OpenCL的图形处理器FDTD算法仿真研究[D];山东大学;2014年

10 张新;基于SMP的离散事件执行驱动性能模拟器设计与实现[D];国防科学技术大学;2012年

本文编号：730656

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/730656.html

上一篇：基于STC15F104E单片机的移动X线机无线延时曝光系统的研制
下一篇：数据中心机房设计要点及实际应用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|