面向高吞吐率计算的编程模型和运行框架系统
发布时间:2020-05-12 21:29
【摘要】:处理大规模问题的常用技术手段包括高性能计算、高吞吐率计算和大数据处理技术等。由于高吞吐率计算存在计算时间长、使用计算资源多、多任务、容错性要求较高的特点,Hadoop等大数据计算框架和在高性能计算领域应用广泛的MPI都不完全适用于开发高吞吐率计算应用。为了降低高吞吐率计算应用的开发难度、提高开发效率,本文对已有的DCR编程模型和运行框架进行了改进,使其能够满足高吞吐率计算多任务、容错等方面的需求。借助本文的编程模型和运行框架,用户开发高吞吐率计算应用时,只需要实现编程模型中的分解、计算和规约过程,任务的执行、任务之间的计算资源分配、节点管理、负载均衡、容错等功能均由运行框架实现。本文首先介绍了改进后的编程模型,包括任务、任务模板和任务组的概念;任务组中任务依赖关系的描述;用于任务间通信的消息模型;任务间的计算资源分配原则。然后,本文介绍了运行框架的总体结构,包括调度节点和计算节点的总体结构、队列结构、线程结构以及两者之间的通信。随后,本文详细介绍了运行框架多任务机制的设计与实现,包括:任务模板的管理、任务的创建、任务的状态、任务的管理功能和任务管理器的实现、任务执行器的实现、消息机制的设计与实现。同时,本文还对任务执行过程、任务计算资源分配、负载均衡和容错等方面的实现进行了介绍。最后,本文在“神威太湖之光”、“天河二号A”以及GPU集群上对运行框架进行了多任务、消息通信和大规模集群支撑能力等多方面的测试,验证了运行框架能够满足高吞吐率计算的需要。
【图文】:
任务
(3)(5)图 6-1 不同拓扑结构的任务任务的两倍。以案例 3 为例,任务 T2 将在任务 T1 执行完后执行,任务 T4 将在任T3 执行完后执行。任务 T2 和 T3 的 P 相同,均为任务 T1 和任务 T4 的两倍。每测试案例都会使用一个任务组来描述。任务组内所有任务的 L 相同,,即平分计算资源测试时使用了 200 个计算节点,每个计算节点的任务队列的长度都设置为 8。因此测试时的计算资源总量为 1600。6.2.2 测试结果相同任务规模的多任务调度测试结果如表 6-9 所示。表 6-9 相同任务规模的测试结果任务组 G1 G2 G3 G4预计完成时间(s)8,192 8,192 16,384 16,384
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13;TP38
本文编号:2660866
【图文】:
任务
(3)(5)图 6-1 不同拓扑结构的任务任务的两倍。以案例 3 为例,任务 T2 将在任务 T1 执行完后执行,任务 T4 将在任T3 执行完后执行。任务 T2 和 T3 的 P 相同,均为任务 T1 和任务 T4 的两倍。每测试案例都会使用一个任务组来描述。任务组内所有任务的 L 相同,,即平分计算资源测试时使用了 200 个计算节点,每个计算节点的任务队列的长度都设置为 8。因此测试时的计算资源总量为 1600。6.2.2 测试结果相同任务规模的多任务调度测试结果如表 6-9 所示。表 6-9 相同任务规模的测试结果任务组 G1 G2 G3 G4预计完成时间(s)8,192 8,192 16,384 16,384
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13;TP38
【参考文献】
相关期刊论文 前1条
1 林彦宇;陈虎;苗军;韩佳龙媚;赖路双;;提升大规模集群上并行计算软件系统可靠性和服务性的方法与实践[J];计算机工程与科学;2015年01期
相关硕士学位论文 前2条
1 刘本俊;基于任务类型的并行计算框架研究与应用[D];华南理工大学;2017年
2 江嘉治;并行计算支撑系统DCR的研究和实现[D];华南理工大学;2016年
本文编号:2660866
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2660866.html