面向高吞吐率计算的编程模型和运行框架系统

发布时间：2020-05-12 21:29

【摘要】：处理大规模问题的常用技术手段包括高性能计算、高吞吐率计算和大数据处理技术等。由于高吞吐率计算存在计算时间长、使用计算资源多、多任务、容错性要求较高的特点,Hadoop等大数据计算框架和在高性能计算领域应用广泛的MPI都不完全适用于开发高吞吐率计算应用。为了降低高吞吐率计算应用的开发难度、提高开发效率,本文对已有的DCR编程模型和运行框架进行了改进,使其能够满足高吞吐率计算多任务、容错等方面的需求。借助本文的编程模型和运行框架,用户开发高吞吐率计算应用时,只需要实现编程模型中的分解、计算和规约过程,任务的执行、任务之间的计算资源分配、节点管理、负载均衡、容错等功能均由运行框架实现。本文首先介绍了改进后的编程模型,包括任务、任务模板和任务组的概念;任务组中任务依赖关系的描述;用于任务间通信的消息模型;任务间的计算资源分配原则。然后,本文介绍了运行框架的总体结构,包括调度节点和计算节点的总体结构、队列结构、线程结构以及两者之间的通信。随后,本文详细介绍了运行框架多任务机制的设计与实现,包括:任务模板的管理、任务的创建、任务的状态、任务的管理功能和任务管理器的实现、任务执行器的实现、消息机制的设计与实现。同时,本文还对任务执行过程、任务计算资源分配、负载均衡和容错等方面的实现进行了介绍。最后,本文在“神威太湖之光”、“天河二号A”以及GPU集群上对运行框架进行了多任务、消息通信和大规模集群支撑能力等多方面的测试,验证了运行框架能够满足高吞吐率计算的需要。
【图文】：

任务

拓扑结构图,拓扑结构,任务组,计算资源

(3)(5)图 6-1 不同拓扑结构的任务任务的两倍。以案例 3 为例，任务 T2 将在任务 T1 执行完后执行，任务 T4 将在任T3 执行完后执行。任务 T2 和 T3 的 P 相同，均为任务 T1 和任务 T4 的两倍。每测试案例都会使用一个任务组来描述。任务组内所有任务的 L 相同，，即平分计算资源测试时使用了 200 个计算节点，每个计算节点的任务队列的长度都设置为 8。因此测试时的计算资源总量为 1600。6.2.2 测试结果相同任务规模的多任务调度测试结果如表 6-9 所示。表 6-9 相同任务规模的测试结果任务组 G1 G2 G3 G4预计完成时间(s)8,192 8,192 16,384 16,384
【学位授予单位】：华南理工大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TP311.13;TP38

【参考文献】