异构平台上基于OpenCL的矩阵乘并行算法
发布时间:2021-06-10 09:47
在分析开放式计算语言(OpenCL)平台底层硬件构架的基础上,从数据本地化、计算资源利用率和访存带宽利用率等多个不同角度优化了矩阵乘算法,并实现了矩阵乘算法在OpenCL架构下的加速.实验数据显示,与基于CPU的单线程算法、基于OpenMP多线程算法和基于统一计算设备架构(CUDA)并行算法相比,基于OpenCL架构的矩阵乘并行算法效率更高.
【文章来源】:西南大学学报(自然科学版). 2020,42(11)北大核心CSCD
【文章页数】:7 页
【部分图文】:
矩阵乘并行算法执行模式
当矩阵大小比较小时, 系统启动的参与并行运算处理的工作项不多, 并没有充分利用GPU中大量的CU. 随着矩阵大小的扩大, 系统启动的工作项数目在不断增多, 算法获得的加速比也随着系统负荷的不断增加而扩大. 当GPU的运算负荷接近饱和状态时, 获得的加速比相应地也逐渐减缓. 同时, CUDA加速的矩阵乘并行算法受制于硬件平台, OpenCL加速的矩阵乘并行算法分别在AMD GPU和NVIDIA GPU平台上取得了22.24倍和24.56倍加速比, 说明在多种硬件平台上基于OpenCL的矩阵乘并行算法能够在最大程度上实现性能的可移植性和兼容性.3 结束语
【参考文献】:
期刊论文
[1]基于Spark的极限学习机算法并行化研究[J]. 刘鹏,王学奎,黄宜华,孟磊,丁恩杰. 计算机科学. 2017(12)
[2]基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算[J]. 龙卓群,王晓瑜,王昌明. 自动化与仪表. 2017(07)
[3]布尔矩阵乘的分布式异构并行优化[J]. 朱敏,唐波,赵娟,邹丹,李金才. 计算机工程与科学. 2017(04)
[4]基于FPGA的Systolic乘法技术研究[J]. 周磊涛,陶耀东,刘生,李锁. 计算机工程与科学. 2015(09)
[5]基于GPU的相关干涉仪算法实现[J]. 王云龙,吴瑛. 信息工程大学学报. 2015(01)
[6]基于Parray数组类型的矩阵乘法实现[J]. 崔翔,李晓雯,陈一峯. 计算机学报. 2014(12)
[7]基于FPGA的全流水双精度浮点矩阵乘法器设计[J]. 刘沛华,鲁华祥,龚国良,刘文鹏. 智能系统学报. 2012(04)
[8]基于CUDA的矩阵乘法的并行实现[J]. 张梦元. 信息通信. 2012(02)
本文编号:3222152
【文章来源】:西南大学学报(自然科学版). 2020,42(11)北大核心CSCD
【文章页数】:7 页
【部分图文】:
矩阵乘并行算法执行模式
当矩阵大小比较小时, 系统启动的参与并行运算处理的工作项不多, 并没有充分利用GPU中大量的CU. 随着矩阵大小的扩大, 系统启动的工作项数目在不断增多, 算法获得的加速比也随着系统负荷的不断增加而扩大. 当GPU的运算负荷接近饱和状态时, 获得的加速比相应地也逐渐减缓. 同时, CUDA加速的矩阵乘并行算法受制于硬件平台, OpenCL加速的矩阵乘并行算法分别在AMD GPU和NVIDIA GPU平台上取得了22.24倍和24.56倍加速比, 说明在多种硬件平台上基于OpenCL的矩阵乘并行算法能够在最大程度上实现性能的可移植性和兼容性.3 结束语
【参考文献】:
期刊论文
[1]基于Spark的极限学习机算法并行化研究[J]. 刘鹏,王学奎,黄宜华,孟磊,丁恩杰. 计算机科学. 2017(12)
[2]基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算[J]. 龙卓群,王晓瑜,王昌明. 自动化与仪表. 2017(07)
[3]布尔矩阵乘的分布式异构并行优化[J]. 朱敏,唐波,赵娟,邹丹,李金才. 计算机工程与科学. 2017(04)
[4]基于FPGA的Systolic乘法技术研究[J]. 周磊涛,陶耀东,刘生,李锁. 计算机工程与科学. 2015(09)
[5]基于GPU的相关干涉仪算法实现[J]. 王云龙,吴瑛. 信息工程大学学报. 2015(01)
[6]基于Parray数组类型的矩阵乘法实现[J]. 崔翔,李晓雯,陈一峯. 计算机学报. 2014(12)
[7]基于FPGA的全流水双精度浮点矩阵乘法器设计[J]. 刘沛华,鲁华祥,龚国良,刘文鹏. 智能系统学报. 2012(04)
[8]基于CUDA的矩阵乘法的并行实现[J]. 张梦元. 信息通信. 2012(02)
本文编号:3222152
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3222152.html