LAPW基组第一性原理计算的GPU加速方法及其应用
发布时间:2021-06-18 14:33
第一性原理计算在凝聚态物理学研究及新材料研发中具有重要作用,其中基于线性缀加平面波(LAPW)基组的第一性原理计算具有计算精度高、适用于对磁性材料、磁光材料模拟仿真的特点,已获得较为广泛的应用。然而由于以LAPW为波函数基组求解Kohn-Sham方程的自洽迭代过程较为复杂,其计算耗时长、计算体系规模小、需要用到价格昂贵的高性能计算机或计算集群,已成为制约相关研究与工程应用的瓶颈。图形处理器(Graphics Processing Unit,GPU)通用计算技术的出现为加速LAPW基组第一性原理计算提供了新的方向。GPU的浮点运算性能、并行能力和存储带宽都超过了同期的主流CPU,而NVIDIA公司的CUDA框架大大降低了研发人员利用GPU开发高性能计算程序的难度。本文提出了采用GPU来加速LAPW基组第一性原理计算的方法,并在该方法的基础上实现GPU加速计算程序。主要的研究工作如下:1.系统研究了 LAPW基函数计算及采用LAPW基组的第一性原理计算方法,并且对GPU通用计算的硬件架构和技术框架进行了研究。2.对LAPW方法的自洽迭代计算过程中涉及LAPW计算且计算量较大的三个关键模块进...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:98 页
【学位级别】:硕士
【部分图文】:
图1.2多西贝小波???
?02468??x??图1.2多西贝小波???缀加平面波类基组。与上述基组相比,缀加平面波(augmentedplanewave,APW)基??组,以及在其基础上发展而来的线性缀加平面波(linearised?augmented-planewave,?LAPW)??基组pun在电子结构计算上更为精确。APW基组的雏形是原胞法,即认为原胞中的电子??只收到此原胞中原子核势场的影响,而其它原胞对其影响可以忽略不计,因此可以把原胞??内的势场看成是中心对称的,类似于自由原子的势场。原胞法的模型过于粗糙,完全忽略??了实际晶体结构,只能用于计算筒单金属的电子结构。J.C.Slaterf28]结合了原胞法和平面波??基组的特点,提出了缀加平面波(APW)基组,将原胞内的空间分为两个区域,波函数分别??以平面波基组和原子轨道组合基组进行展开。随后
MKBS^Ma^/UCacte??图2.1?Fermi架构流式多处理器示意图??图2.2所示为Fermi架构框图。Fermi架构拥有16个SM,总共512个CUDA核心,因??此在硬件上最多并行执行512个线程;但是得益于高效的调度器和调度策略,在逻辑上通??常能够同时启动更多的线程。6个384位的GDDR5?DRAM存储器接口支持最高6GB的设??备内存(显存)。GigaThread引擎负责对SM进行任务流分配和控制。??Fermi架构包含的768?KB的二级缓存,被16个SM所共享。主机接口(Host?Interface)??模块负责GPU设备通过PCIe总线与CPU连接,目前主流的PCIe-3.0标难提供双向8Gb/s??的理论传输速率。数据可以通过直接内存访问控制器(DirectMemory?Access
【参考文献】:
期刊论文
[1]异构计算量子化学软件的研发恰逢其时[J]. 田英齐,马英晋,索兵兵,金钟. 中国科学基金. 2018(01)
[2]GPU异构平台上的第一性原理计算[J]. 贾伟乐,曹宗雁,付继芸,王龙. 科研信息化技术与应用. 2012(05)
博士论文
[1]基于GPU计算平台的电磁散射计算并行加速技术[D]. 高鹏程.浙江大学 2013
本文编号:3236834
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:98 页
【学位级别】:硕士
【部分图文】:
图1.2多西贝小波???
?02468??x??图1.2多西贝小波???缀加平面波类基组。与上述基组相比,缀加平面波(augmentedplanewave,APW)基??组,以及在其基础上发展而来的线性缀加平面波(linearised?augmented-planewave,?LAPW)??基组pun在电子结构计算上更为精确。APW基组的雏形是原胞法,即认为原胞中的电子??只收到此原胞中原子核势场的影响,而其它原胞对其影响可以忽略不计,因此可以把原胞??内的势场看成是中心对称的,类似于自由原子的势场。原胞法的模型过于粗糙,完全忽略??了实际晶体结构,只能用于计算筒单金属的电子结构。J.C.Slaterf28]结合了原胞法和平面波??基组的特点,提出了缀加平面波(APW)基组,将原胞内的空间分为两个区域,波函数分别??以平面波基组和原子轨道组合基组进行展开。随后
MKBS^Ma^/UCacte??图2.1?Fermi架构流式多处理器示意图??图2.2所示为Fermi架构框图。Fermi架构拥有16个SM,总共512个CUDA核心,因??此在硬件上最多并行执行512个线程;但是得益于高效的调度器和调度策略,在逻辑上通??常能够同时启动更多的线程。6个384位的GDDR5?DRAM存储器接口支持最高6GB的设??备内存(显存)。GigaThread引擎负责对SM进行任务流分配和控制。??Fermi架构包含的768?KB的二级缓存,被16个SM所共享。主机接口(Host?Interface)??模块负责GPU设备通过PCIe总线与CPU连接,目前主流的PCIe-3.0标难提供双向8Gb/s??的理论传输速率。数据可以通过直接内存访问控制器(DirectMemory?Access
【参考文献】:
期刊论文
[1]异构计算量子化学软件的研发恰逢其时[J]. 田英齐,马英晋,索兵兵,金钟. 中国科学基金. 2018(01)
[2]GPU异构平台上的第一性原理计算[J]. 贾伟乐,曹宗雁,付继芸,王龙. 科研信息化技术与应用. 2012(05)
博士论文
[1]基于GPU计算平台的电磁散射计算并行加速技术[D]. 高鹏程.浙江大学 2013
本文编号:3236834
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3236834.html