当前位置:主页 > 科技论文 > 计算机论文 >

细粒度任务并行GPU通用矩阵乘

发布时间:2018-03-26 22:26

  本文选题:通用矩阵乘 切入点:持久化kernel 出处:《计算机工程与科学》2015年05期


【摘要】:稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位。在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型GEMM计算能够达到很高的性能。然而,现有实现对批量的小型GEMM计算性能发挥则较为有限。而且,现有实现也不能在多个具有不同性能的GPU之间自动扩展并达到负载均衡。提出任务并行式GEMM(TPGEMM),用细粒度任务并行的方式实现批量矩阵乘和多GPU矩阵乘。一个或多个GEMM的计算能够被拆分为多个任务,动态地调度到一个或多个GPU上。TPGEMM避免了为批量矩阵乘启动多个kernel函数的开销,对批量矩阵乘能够取得显著高于cuBLAS与MAGMA的性能。在低开销细粒度任务调度的基础上,TPGEMM支持单个GEMM计算在多个GPU间的自动并行,在一台具有四个不同性能GPU的工作站上取得了接近100%的扩展效率。
[Abstract]:Dense linear algebraic operations are very important for many practical applications, such as pattern recognition and biological information, while general-purpose matrix multiplication is the basis of dense linear algebraic operations. In cuBLAS and MAGMA, they are implemented as several kernel functions. High performance can be achieved for large GEMM computing. However, the performance of existing implementations for batch small GEMM computing is limited. The existing implementation can not automatically extend and achieve load balance among multiple GPU with different performance. This paper proposes a task-parallel GPU matrix multiplication, which implements batch matrix multiplication and multiple GPU matrix multiplication by fine-grained task parallelism. The calculation of GEMM can be split into multiple tasks, Dynamically scheduling to one or more GPU. TPGEMM avoids the overhead of starting multiple kernel functions for batch matrix multiplication. The performance of batch matrix multiplication is significantly higher than that of cuBLAS and MAGMA. On the basis of low overhead fine-grained task scheduling, TPGEMM supports automatic parallelism of single GEMM computation between multiple GPU. Nearly 100% expansion efficiency is achieved on a workstation with four different performance GPU.
【作者单位】: 南开大学计算机与控制工程学院;
【分类号】:TP338.6

【共引文献】

相关期刊论文 前3条

1 林关成;;实验教学中心集群渲染系统的构建与测试[J];信息技术;2014年03期

2 肖华东;孙婧;魏敏;李娟;沈瑜;;高性能计算机系统相对持续性能度量模型[J];计算机工程与应用;2015年05期

3 刘刚;张恒;张滇;毛睿;;基于龙芯3B处理器的Linpack优化实现[J];深圳大学学报(理工版);2014年03期

【相似文献】

相关期刊论文 前10条

1 孙伟;李艳灵;周文勇;;细粒度基于传递功能的约束委托模型[J];信阳师范学院学报(自然科学版);2013年03期

2 夏汛;陈玲;;基于拦截器的细粒度权限设计[J];福建电脑;2012年11期

3 欧阳纯萍;阳小华;雷龙艳;徐强;余颖;刘志明;;多策略中文微博细粒度情绪分析研究[J];北京大学学报(自然科学版);2014年01期

4 史大伟;袁天伟;;一种粗细粒度结合的动态污点分析方法[J];计算机工程;2014年03期

5 戢彦泓,郭常杰,钟玉琢,孙立峰;基于细粒度可扩展编码的多源视频流化方案[J];清华大学学报(自然科学版);2004年04期

6 涂登彪;谭光明;孙凝晖;;无锁同步的细粒度并行介度中心算法[J];软件学报;2011年05期

7 张宇轩;魏廷存;樊晓桠;张萌;;面向流体系的细粒度异步访存调度[J];计算机应用研究;2012年03期

8 原子;于莉莉;刘超;;引入缺陷的细粒度软件变更识别方法[J];北京航空航天大学学报;2014年09期

9 王宽;;基于细粒度调整的同步播放控制算法[J];山西电子技术;2008年05期

10 华秀丽;徐凡;王中卿;李培峰;;细粒度科技论文摘要句子分类方法[J];计算机工程;2012年14期

相关会议论文 前6条

1 叶蕴芳;杨榆;罗鑫;徐国爱;;Appfuse系统中细粒度权限控制的研究与实现[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

2 江伟玉;高能;刘泽艺;林雪燕;;一种云计算中的多重身份认证与授权方案[A];第27次全国计算机安全学术交流会论文集[C];2012年

3 李俊青;谢圣献;刘广亮;陈晨;;P2P网络基于蚁群优化的动态细粒度访问控制框架[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年

4 郭磊;唐玉华;周杰;董亚卓;;基于FPGA的Cholesky分解细粒度并行结构与实现[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年

5 盛振华;吴羽;江锦华;寿黎但;陈刚;;InfoSigs:一种面向WEB对象的细粒度聚类算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

6 何全胜;;基于端口认证和堆叠VLAN两种技术在LAN接入中的应用分析[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年

相关重要报纸文章 前2条

1 赵晓涛;巡展中的三大热门[N];网络世界;2007年

2 乐天邋编译;编织一张更好的Web[N];计算机世界;2007年

相关博士学位论文 前3条

1 时杰;关系数据库细粒度访问控制研究[D];华中科技大学;2010年

2 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年

3 余a\;基于Simulink模型的细粒度多线程技术研究[D];浙江大学;2014年

相关硕士学位论文 前10条

1 张s,

本文编号:1669884


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1669884.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ba1c3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com