当前位置:主页 > 科技论文 > 计算机论文 >

基于CUDA的简化并行编程方案设计

发布时间:2018-02-20 03:38

  本文关键词: CUDA GPGPU 并行编程 内存管理 多地址空间 集群 出处:《大连理工大学》2013年硕士论文 论文类型:学位论文


【摘要】:NVIDIA公司设计的基于GPGPU的通用并行计算架构CUDA已经在各个领域得到广泛的应用。本文针对GPGPU设备外部的并行设计了基于CUDA的简化并行编程方案。首先,本文针对大批量数据场景提出了GPGPU设备间并行编程简化方案,以辅助本文提出的多地址空间封装技术能够独立地运行于集群环境中。此外,本文提出的GPGPU设备间并行编程解决方案引入了数据复用技术,对视频处理任务场景提供了优化。其次,本文针对CUDA并行编程中内存管理与多地址空间架构具有较高耦合度这一问题,提出了多地址空间封装技术来简化CPU与GPGPU设备间的并行编程。 基于多地址空间封装技术,本文提出了源码转换技术,以进一步简化CUDA编程中的内存管理,允许编程者对于内存相关变量采取只声明不维护的编码方式。在实验中,本文将多地址空间封装技术与CUDA的统一虚拟寻址技术进行了对比,实验结果表明:当计算所需数据位于其它设备中时,在执行访存密集型任务时,多地址空间封装技术占有性能优势;在执行计算密集型任务时,统一虚拟寻址技术占有性能优势。最后,本文还通过从NPP库中选取的三个具有代表性的算法再次验证了上述结论,并在实验中测量了多地址空间封装技术的额外开销,实验结果表明其额外开销仅为0.04%至0.07%。
[Abstract]:CUDA, a general parallel computing architecture based on GPGPU, which is designed by NVIDIA Company, has been widely used in various fields. In this paper, a simplified parallel programming scheme based on CUDA is designed for the concurrent design of GPGPU devices. In this paper, we propose a simplified scheme of parallel programming between GPGPU devices for mass data scenarios, which can assist the multi-address space encapsulation technology proposed in this paper to run independently in the cluster environment. The parallel programming solution between GPGPU devices proposed in this paper introduces the technology of data reuse, which provides the optimization of the video processing task scene. In order to solve the problem of high coupling between memory management and multi-address space architecture in CUDA parallel programming, a multi-address space encapsulation technique is proposed to simplify the parallel programming between CPU and GPGPU devices. Based on the multi-address space encapsulation technology, this paper proposes the source code conversion technology to further simplify the memory management in CUDA programming, allowing the programmer to adopt the coding method of declaring and not maintaining the memory-related variables. In this paper, the multi-address space encapsulation technology is compared with the unified virtual addressing technology of CUDA. The experimental results show that when the computing data is located in other devices, the memory access intensive task is performed. The multi-address space encapsulation technology has the performance advantage, and the unified virtual addressing technology has the performance advantage when performing computation-intensive tasks. Finally, This paper also verifies the above conclusions again through three representative algorithms selected from the NPP library, and measures the extra cost of the multi-address space encapsulation technology in the experiment. The experimental results show that the extra cost is only 0.04% to 0.07.
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP338.6

【相似文献】

相关期刊论文 前10条

1 吴长茂;张聪品;张慧云;王娟;;CUDA平台下多核GPU高性能并行编程研究[J];河南机电高等专科学校学报;2011年01期

2 李波;赵华成;张敏芳;;CUDA高性能计算并行编程[J];微型电脑应用;2009年09期

3 陆建勇;焦良葆;;基于CUDA的光线跟踪实现中纹理内存的应用研究[J];中国新技术新产品;2009年23期

4 刘琳;何剑锋;王红玲;;GPU加速数据挖掘算法的研究[J];郑州大学学报(理学版);2010年02期

5 杨栋青;褚宝增;;CUDA技术在视频压缩中的应用[J];硅谷;2009年17期

6 柳彬;王开志;刘兴钊;郁文贤;;利用CUDA实现的基于GPU的SAR成像算法[J];信息技术;2009年11期

7 胡前亮;陈炳发;;一种采用CUDA的骨骼动画阴影实时仿真方法[J];小型微型计算机系统;2011年01期

8 张润梅;王霄;;基于CUDA架构的MD5破解方法研究[J];计算机科学;2011年02期

9 甘新标;沈立;王志英;;基于CUDA的并行全搜索运动估计算法[J];计算机辅助设计与图形学学报;2010年03期

10 刘东亮;Paul Demorest;南仁东;;基于CUDA的相干消色散算法实现与测试[J];科学技术与工程;2010年08期

相关会议论文 前10条

1 侯有政;张方;;基于CUDA的动载荷频域识别的并行算法研究[A];第十届全国振动理论及应用学术会议论文集(2011)上册[C];2011年

2 俞洲;彭晓东;谢文明;陈梦云;;基于CUDA语言的海量空间科学数据实时体绘制研究[A];第二十三届全国空间探测学术交流会论文摘要集[C];2010年

3 张光斌;谢维盛;吴鸿伟;;基于CUDA的多模式匹配技术[A];第26次全国计算机安全学术交流会论文集[C];2011年

4 印明明;;CUDA实现频域宽带波束形成[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年

5 夏春芬;邹承明;;CUDA共享内存在人脸表情识别中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

6 李建勋;赵宝升;柯熙政;;脉冲星导航系统模糊度解析算法的并行计算与实现基于GPU和CUDA架构[A];第二届中国卫星导航学术年会电子文集[C];2011年

7 刘伟峰;唐先明;韩宝东;朱文妹;;基于GPU计算的光线投射法体绘制研究[A];图像图形技术研究与应用2009——第四届图像图形技术与应用学术会议论文集[C];2009年

8 严历;郭力;李晓霞;;分子动力学模拟软件GROMACS向GPGPU移植初探[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

9 徐侃;陈如山;杜磊;朱剑;杨阳;;可编程图形处理器加速无条件稳定的Crank-Nicolson FDTD分析三维微波电路[A];2009年全国微波毫米波会议论文集(下册)[C];2009年

10 叶良;单桂华;迟学斌;;基于CUDA加速的光线投射法研究[A];图像图形技术研究与应用(2010)[C];2010年

相关重要报纸文章 前10条

1 本报记者 刘洪宇;并行编程:虽难也能走捷径[N];中国计算机报;2010年

2 Intel编程系统实验室 Ali-Reza邋Adl-Tabatabai;TM将取代互斥锁助益并行编程[N];中国计算机报;2008年

3 英特尔微处理器技术实验室主任工程师 Anwar Ghuloum;并行编程为什么这么难?[N];中国计算机报;2007年

4 本报记者 杨琳桦;NVIDIA详解CUDA攻略:“麦当劳”式推广之道[N];21世纪经济报道;2009年

5 吴加录;英特尔软件大会:软件进入多核时代[N];中国计算机报;2008年

6 鲁媛媛;来一块“英特尔”夹心软糖[N];网络世界;2008年

7 谢涛;英特尔:忽视并行化软件后果很危险[N];电脑商报;2008年

8 本报记者 陈斌;多核的软件推力[N];计算机世界;2008年

9 英特尔并行计算实验室研究员 TimothyMattson;并行计算:减少串行软件[N];中国计算机报;2007年

10 苏铁;方正HPCC集群系统为高等教育全面助力[N];国际商报;2005年

相关博士学位论文 前10条

1 武华北;混合并行计算环境多级并行化编程模式的研究[D];天津大学;2009年

2 李波;基于异构多核平台的优化编程研究[D];华中科技大学;2011年

3 成杏梅;基于媒体芯片的实时操作系统实现研究[D];浙江大学;2008年

4 石林;GPU通用计算虚拟化方法研究[D];湖南大学;2012年

5 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年

6 毛华庆;基于GPU优化的三维实时渲染技术的研究[D];武汉大学;2010年

7 白明泽;多核集群上的混合并行分子动力学计算研究[D];电子科技大学;2012年

8 彭林;软件事务存储并行编程环境关键技术研究[D];国防科学技术大学;2010年

9 陈榕;多核环境下面向数据并行编程模型的性能和可伸缩性研究[D];复旦大学;2011年

10 尹奎英;SAR图像处理及地面目标识别技术研究[D];西安电子科技大学;2011年

相关硕士学位论文 前10条

1 唐X;基于CUDA的简化并行编程方案设计[D];大连理工大学;2013年

2 吕庆;基于CUDA的图像数字水印技术的研究[D];大连理工大学;2011年

3 陈波;基于CPU-GPU异构平台的性能优化及多核并行编程模型的研究[D];中国科学技术大学;2011年

4 张奇;基于CUDA架构的MD5并行破解算法设计与实现[D];电子科技大学;2012年

5 邓伟良;基于MPI的并行编程技巧[D];暨南大学;2001年

6 梁慧;基于多核的数据并行编程平台的研究与实现[D];东北大学;2009年

7 徐项沛;片上网络多核处理器的性能测试与并行编程研究[D];南京大学;2011年

8 张其飞;基于CUDA架构的九路围棋博弈引擎的并行化研究及实现[D];北京邮电大学;2012年

9 张伊丽;基于CUDA的泛kriging算法的研究与设计[D];中国地质大学(北京);2012年

10 陈翔;基于CUDA的抠像算法设计优化[D];华南理工大学;2011年



本文编号:1518670

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1518670.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3c3eb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com