深穿透粒子输运蒙特卡罗模拟的CPU/GPU协同算法研究

发布时间：2021-07-14 00:37

　　近些年,由于GPU在性能和可编程性方面都有很大提升,通用GPU计算以高性价比的优势越来越受人们关注。众多研究人员都将GPU应用于所属领域,GPU的应用领域已从早期的单一图形计算扩展到通用计算,尤其是科学计算领域。粒子输运模拟在国民经济建设和大规模科学工程计算中具有重要应用,粒子输运蒙特卡罗（Monte Carlo,简称MC）方法求解相对于确定性方法在求解某些复杂粒子输运问题时有显著的优势,但往往需要的计算量极大。CPU/GPU异构混合系统的出现为这一问题的解决带来了机遇和挑战。本文在现有粒子输运MC模拟算法的基础上,针对CPU/GPU混合异构体系结构的特点,提出了一种面向大规模异构混合系统的深穿透粒子输运MC模拟CPU/GPU协同算法,并实现了该算法与MCNP程序的整合。主要工作如下:1)提出一种基于GPU的MCNP伪随机数发生器,采用了与已有MCNP伪随机数发生器相同参数的线性同余法（LCG）来生成随机数,首先通过跳跃法快速为每个线程生成随机数种子,然后利用GPU多线程并行生成多个随机数子序列。相对运行在Intel X5670上的MCNP伪随机数发生器,本文提出的基于GPU的伪随机数...

【文章来源】：国防科技大学湖南省 211工程院校 985工程院校

【文章页数】：78 页

【学位级别】：硕士

【部分图文】：

G80体系结构

体系结构图,体系结构,架构

图 2.1 G80 体系结构GT200 是 NVIDIA 在 G80 架构基础上改进后推出的第二代统一架构，广了 GeForce，Tesla，Quadro 等产品中。GT200 架构相对 G80 上没有显著主要改进是对 G80 在功能上进行了扩展。GT200 架构中流处理器（Streessor）的数目增加到 240 个，每个流处理器中寄存器数量增加为 G80 的一同时并发执行更多的线程，对线程访存做了进一步优化，同时增加对双计算的支持。2.1.2 Fermi 体系结构

多处理器体系结构

国防科学技术大学研究生院工学硕士学位论文Fermi 体系结构如图 2.2[46]所示，其中每个流多处理器（Streaming Multipro中流处理器的数量从每组 8 个增加到了 32 个，而 SM 数量由 30 组减少一改进使得流处理器的总数量从 240 个增加到了 512 个，是 GT200 的四个 64 位访存存储器控制器提供了一个 384 位的访存接口，最高支持R5 显存，主机与线程之间通过 PCI-E 总线进行通信；使用 GigaThread 全用于线程块执行调度。相比于 GT200 仅仅是对 G80 性能和功能上的扩展，NVIDIA 第三代统一i 借鉴 G80 和 GT200 的设计经验和广泛吸取用户的使用反馈，在以下几了较大的改进：其双精度浮点计算性能有了很大提升，是 GT200 双精度的 8 倍，增加了 ECC（Error Correcting Code）支持，提供了新型 Cach和更大容量的共享存储器（Shared Memory），提高了上下文切换速度，子操作。

【参考文献】：
期刊论文
[1]The TianHe-1A Supercomputer: Its Hardware and Software[J]. 杨学军,廖湘科,卢凯,胡庆丰,宋君强,苏金树.  Journal of Computer Science & Technology. 2011(03)
[2]CPU/GPU协同并行计算研究综述[J]. 卢风顺,宋君强,银福康,张理论.  计算机科学. 2011(03)
[3]蒙特卡罗方法发展中的若干问题[J]. 裴鹿成.  计算物理. 1992(S1)

本文编号：3283042

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3283042.html

上一篇：小型机房建设总体设计方案分析
下一篇：基于感性工学对笔记本外观设计的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|