GPU加速高速粒子碰撞模拟

发布时间：2020-07-12 17:28

【摘要】： 分子动力学(Molecular dynamics,简称MD)模拟作为一种重要的计算机模拟方法广泛应用于生物,化学,材料科学等众多学科中。然而计算性能一直都是限制MD使用的主要障碍。近年来,GPU作为一种新型的计算资源成为研究的热点。与传统CPU相比,GPU拥有更高的性能,更低的功耗和更高的性价比。因此,使用GPU加速分子动力学模拟,可以节约模拟的时间,提高模拟的规模,从而使分子动力学模拟能更广泛的应用到实际的工程中去。本文主要以高速碰撞的粒子模型为研究对象,基于NVIDIA CUDA编程模型和Brook+语言实现了GPU加速的分子动力学程序,并针对GPU的存储结构和多GPU对算法进行了优化,主要取得了如下成果: 1、提出了一种优化的区域分解算法。本文改进了传统的区域分解算法,在通用处理器和GPU上分两次对分子动力学模拟中的计算任务进行分解,首次划分保证负载平衡,第二次划分解决通信开销和数据复用问题。 2、提出了一种改进的粒子索引方法。通过在通用处理节点上对粒子进行排序,使相邻粒子的存储地址尽量靠近。当加速节点上的线程从全局内存上读取粒子信息时,能够呈现出数据局部性的特点,可以减少了线程从全局内存中读取数据的次数,从而节省时间。 3、针对GPU的存储结构对程序进行优化。针对片上共享内存分体设计特点,实现了单精度算法下线程间无冲突的共享内存访问,减少了流处理器的闲置时间。 4、使用多GPU对程序进行加速。采用常用的消息传递接口(MPI)协议实现通用处理器之间的并行划分,从而实现了各节点间GPU的并行计算,满足了更快速的分子动力学模拟的要求。本文对GPU加速的分子动力学模拟正确性和性能进行了测试。结果表明,GPU对MD算法的加速有明显效果。当粒子规模为43.2万时,经AMD HD4870加速后的MD程序的性能提高了4.8倍,而经Tesla C1060加速后,MD程序性能提高6.5倍。在使用多GPU对程序进行加速后,MD程序的性能提高了11.2倍。同时,经GPU加速的MD程序保证了结果的正确性。
【学位授予单位】：国防科学技术大学
【学位级别】：硕士
【学位授予年份】：2009
【分类号】：TP332
【图文】：

对比图,处理单元,存储单元,对比图

国防科学技术大学研究生院硕士学位论文应用。MD 中粒子的信息往往非常简单且容易向量化。MD先，MD 模拟的空间尺度小而粒子数量大，例如，边长为9个原子[21]；其次，MD 模拟需要精确跟踪粒子的运动以保步长都很小，典型的时间步长为飞秒级，纳秒级别的现实模MD 正是适合 GPU 加速的典型应用。

系统结构图,系统结构图,多处理器,处理单元

图 2.2 Tesla 的系统结构图多处理器 N...多处理器 2多处理器 1共享内存寄存器寄存器寄存器处理单元1 处理单元2处理单元N指令部件常量内存纹理内存设备内存图 2.3 CUDA GPU 存储结构图[7]

执行模型

国防科学技术大学研究生院硕士学位论文算术计算集中，鼓励编程者指定数据上的操作,以达到全局的通信最小而局部一个新的数据类型的扩展，代表了一系列能够被并行处理的数据。流是用列进行描述的，同 C 语言中的数组类似。但它与 C 语言中的数组有以下的区别数外不允许通过下标来获得流元素；不允许对流进行静态的初始化；流必须栈)；流只能在核心(kernel)函数中被读写或者是通过特殊的运算符从普通的据。

【参考文献】