面向多核的系统级MPI通信优化关键技术研究
发布时间:2021-03-08 09:14
消息传递接口(Message Passing Interface,简称MPI)自20世纪90年代以来一直是高性能计算(High Performance Computing,简称HPC)领域并行程序开发的事实标准。在基于MPI编写的并行程序中,MPI通信性能通常对程序整体性能起着关键作用,优化MPI通信具有重要意义。近年来,在多核技术高速发展的背景下,MPI通信亟待针对多核系统特点进行优化。然而,现有优化工作主要停留在基于进程MPI的通信技术,普遍存在处理开销大、访存需求高等不足,限制了通信性能进一步提高。本文针对多核系统诸多特点和现有优化方法不足,从基于线程MPI的通信技术方向入手,系统研究了多核系统MPI通信优化的关键技术,探索了共享内存系统上更高效的消息传递通信接口。取得的主要成果如下:1、面向多核系统,提出了一种高效线程MPI支撑软件技术——MPI通信加速器(MPI Communication Accelerator,简称MPIActor)。MPIActor通过自身专门设计的接口聚合技术在传统进程MPI支撑环境的基础上建立线程MPI支撑环境。相比传统MPI支撑软件的开发方法,采用...
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:142 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景
1.1.1 高性能计算跨入多核时代
1.1.2 MPI 仍然是应对多核系统并行程序开发的重要手段
1.1.3 多核系统上MPI 通信性能优化面临的挑战
1.2 国内外相关研究工作
1.2.1 节点内点对点通信优化相关工作
1.2.2 集合通信优化的相关工作
1.2.3 线程MPI 的相关工作
1.2.4 MPI 支撑软件发展情况
1.3 本文的主要内容与创新点
1.3.1 本文的研究内容
1.3.2 本文的主要贡献
1.4 论文组织结构
第二章 MPI 通信加速器设计
2.1 MPIActor 总体结构
2.1.1 MPIActor 基本思想
2.1.2 MPIActor 的线程MPI 支撑结构
2.2 MPIActor 程序的工作机制
2.2.1 运行期机制
2.2.2 编译期机制
2.2.3 作业加载机制
2.3 MPI 接口聚合原理
2.3.1 问题定义
2.3.2 MPI 接口分析
2.4 点对点通信聚合技术
2.4.1 通信请求分离
2.4.2 节点间通信请求的转发方法
ANYSOURCE 类型请求的处理方法"> 2.4.3 对MPIANYSOURCE 类型请求的处理方法
2.5 通信域及进程组管理接口聚合技术
2.5.1 基础知识
2.5.2 进程组构造接口聚合
2.5.3 通信域构造接口聚合
2.6 基于轻量级单次内存拷贝的节点内点对点通信算法
2.6.1 通信基础结构
2.6.2 通信算法
2.7 实验与结果
2.7.1 实验方法
2.7.2 实验结果与分析
2.8 小结
第三章 基于MPIActor 的集合通信优化
3.1 MPI 集合通信接口概述
3.2 MPIActor 分级集合通信算法框架
Allgather 算法模板:一个算法模板示例"> 3.2.1 MPIAllgather 算法模板:一个算法模板示例
3.2.2 分级集合通信算法框架定义
3.3 基于线程MPI 的节点内集合通信通用算法
3.3.1 节点内广播算法与分散算法
3.3.2 节点内收集
3.3.3 节点内归约
3.3.4 节点内扫描
reduce 的多级分段归约算法"> 3.4 面向Nehalem 体系结构intrareduce 的多级分段归约算法
3.4.1 算法基本思想
3.4.2 算法分析
3.5 实验与结果
3.5.1 实验方法
Bcast)性能研究"> 3.5.2 广播(MPIBcast)性能研究
Allgather)性能研究"> 3.5.3 多对多广播(MPIAllgather)性能研究
Reduce)与全归约(MPIAllreduce)性能研究"> 3.5.4 归约(MPIReduce)与全归约(MPIAllreduce)性能研究
3.6 小结
第四章 一种针对非平衡进程到达模式下MPI 广播的性能优化方法
4.1 相关工作
4.2 问题分析与竞争式流水化优化方法设计
4.2.1 性能模型
4.2.2 问题分析
4.2.3 竞争式流水化方法
4.3 竞争式流水化广播算法实现
4.4 实验与结果
4.4.1 微基准测试(Micro Benchmark)
4.4.2 应用测试
4.5 小结
第五章 基于MPIActor 的共享内存消息传递接口优化技术
5.1 SMPI 的基本思想
5.2 SMPI 接口定义
5.2.1 约定与数据结构
5.2.2 点对点通信接口
5.2.3 集合通信接口
5.2.4 访问控制接口
5.3 基于SMPI 接口的并行程序设计规则
5.3.1 点对点通信
5.3.2 集合通信
5.4 应用算法实例与实验结果
5.4.1 测试用例:矩阵乘cannon 算法
5.4.2 实验结果
5.6 小结
第六章 结论与展望
6.1 工作总结
6.2 工作展望
致谢
参考文献
作者在学期间以第一作者身份取得的学术成果
附件A 本文的实验平台介绍
A.1 Clovertown 集群节点体系结构简介
A.2 Nehalem 集群节点体系结构简介
【参考文献】:
期刊论文
[1]科学计算应用程序探讨[J]. 莫则尧,裴文兵. 物理. 2009(08)
[2]浅析高性能计算应用的需求与发展[J]. 赵毅,朱鹏,迟学斌,牛铁,曹宗雁. 计算机研究与发展. 2007(10)
本文编号:3070806
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:142 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景
1.1.1 高性能计算跨入多核时代
1.1.2 MPI 仍然是应对多核系统并行程序开发的重要手段
1.1.3 多核系统上MPI 通信性能优化面临的挑战
1.2 国内外相关研究工作
1.2.1 节点内点对点通信优化相关工作
1.2.2 集合通信优化的相关工作
1.2.3 线程MPI 的相关工作
1.2.4 MPI 支撑软件发展情况
1.3 本文的主要内容与创新点
1.3.1 本文的研究内容
1.3.2 本文的主要贡献
1.4 论文组织结构
第二章 MPI 通信加速器设计
2.1 MPIActor 总体结构
2.1.1 MPIActor 基本思想
2.1.2 MPIActor 的线程MPI 支撑结构
2.2 MPIActor 程序的工作机制
2.2.1 运行期机制
2.2.2 编译期机制
2.2.3 作业加载机制
2.3 MPI 接口聚合原理
2.3.1 问题定义
2.3.2 MPI 接口分析
2.4 点对点通信聚合技术
2.4.1 通信请求分离
2.4.2 节点间通信请求的转发方法
ANYSOURCE 类型请求的处理方法"> 2.4.3 对MPIANYSOURCE 类型请求的处理方法
2.5 通信域及进程组管理接口聚合技术
2.5.1 基础知识
2.5.2 进程组构造接口聚合
2.5.3 通信域构造接口聚合
2.6 基于轻量级单次内存拷贝的节点内点对点通信算法
2.6.1 通信基础结构
2.6.2 通信算法
2.7 实验与结果
2.7.1 实验方法
2.7.2 实验结果与分析
2.8 小结
第三章 基于MPIActor 的集合通信优化
3.1 MPI 集合通信接口概述
3.2 MPIActor 分级集合通信算法框架
Allgather 算法模板:一个算法模板示例"> 3.2.1 MPIAllgather 算法模板:一个算法模板示例
3.2.2 分级集合通信算法框架定义
3.3 基于线程MPI 的节点内集合通信通用算法
3.3.1 节点内广播算法与分散算法
3.3.2 节点内收集
3.3.3 节点内归约
3.3.4 节点内扫描
reduce 的多级分段归约算法"> 3.4 面向Nehalem 体系结构intrareduce 的多级分段归约算法
3.4.1 算法基本思想
3.4.2 算法分析
3.5 实验与结果
3.5.1 实验方法
Bcast)性能研究"> 3.5.2 广播(MPIBcast)性能研究
Allgather)性能研究"> 3.5.3 多对多广播(MPIAllgather)性能研究
Reduce)与全归约(MPIAllreduce)性能研究"> 3.5.4 归约(MPIReduce)与全归约(MPIAllreduce)性能研究
3.6 小结
第四章 一种针对非平衡进程到达模式下MPI 广播的性能优化方法
4.1 相关工作
4.2 问题分析与竞争式流水化优化方法设计
4.2.1 性能模型
4.2.2 问题分析
4.2.3 竞争式流水化方法
4.3 竞争式流水化广播算法实现
4.4 实验与结果
4.4.1 微基准测试(Micro Benchmark)
4.4.2 应用测试
4.5 小结
第五章 基于MPIActor 的共享内存消息传递接口优化技术
5.1 SMPI 的基本思想
5.2 SMPI 接口定义
5.2.1 约定与数据结构
5.2.2 点对点通信接口
5.2.3 集合通信接口
5.2.4 访问控制接口
5.3 基于SMPI 接口的并行程序设计规则
5.3.1 点对点通信
5.3.2 集合通信
5.4 应用算法实例与实验结果
5.4.1 测试用例:矩阵乘cannon 算法
5.4.2 实验结果
5.6 小结
第六章 结论与展望
6.1 工作总结
6.2 工作展望
致谢
参考文献
作者在学期间以第一作者身份取得的学术成果
附件A 本文的实验平台介绍
A.1 Clovertown 集群节点体系结构简介
A.2 Nehalem 集群节点体系结构简介
【参考文献】:
期刊论文
[1]科学计算应用程序探讨[J]. 莫则尧,裴文兵. 物理. 2009(08)
[2]浅析高性能计算应用的需求与发展[J]. 赵毅,朱鹏,迟学斌,牛铁,曹宗雁. 计算机研究与发展. 2007(10)
本文编号:3070806
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3070806.html