矩阵乘协处理器上BLAS level-3运算的设计
发布时间:2022-12-04 23:33
BLAS level-3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level-3运算,对大规模科学与工程仿真应用的计算加速至关重要。以矩阵乘为核心运算,结合线性阵列的结构特点,提出了矩阵乘协处理器上BLAS level-3运算的设计,并构建了相应的性能分析模型。实验结果表明,矩阵乘协处理器上SYMM、SYRK和TRMM运算的计算效率分别达到了99%,98%和80%,与SW26010和NVIDIA V100 GPU上矩阵运算的计算效率相比,最高提升了31%。
【文章页数】:9 页
【文章目录】:
1 引言
2 矩阵乘协处理器的结构与性能
2.1 线性阵列结构
2.2 矩阵乘协处理器上矩阵乘的计算性能和效率
3 BLAS level-3运算至矩阵乘协处理器的映射
3.1 各运算至线性阵列结构的映射
3.2 性能分析模型
(1) SYMM。
(2) SYRK和SYR2K。
(3) TRMM。
(4) TRSM。
4 实验结果与分析
5 结束语
【参考文献】:
期刊论文
[1]双精度浮点矩阵乘协处理器研究[J]. 贾迅,邬贵明,谢向辉,吴东. 计算机研究与发展. 2019(02)
博士论文
[1]FPGA矩阵计算并行算法与结构[D]. 邬贵明.国防科学技术大学 2011
本文编号:3709206
【文章页数】:9 页
【文章目录】:
1 引言
2 矩阵乘协处理器的结构与性能
2.1 线性阵列结构
2.2 矩阵乘协处理器上矩阵乘的计算性能和效率
3 BLAS level-3运算至矩阵乘协处理器的映射
3.1 各运算至线性阵列结构的映射
3.2 性能分析模型
(1) SYMM。
(2) SYRK和SYR2K。
(3) TRMM。
(4) TRSM。
4 实验结果与分析
5 结束语
【参考文献】:
期刊论文
[1]双精度浮点矩阵乘协处理器研究[J]. 贾迅,邬贵明,谢向辉,吴东. 计算机研究与发展. 2019(02)
博士论文
[1]FPGA矩阵计算并行算法与结构[D]. 邬贵明.国防科学技术大学 2011
本文编号:3709206
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3709206.html