支持原位计算的高效三角矩阵乘法向量化方法
发布时间:2018-05-25 18:05
本文选题:三角矩阵乘法 + 原位计算 ; 参考:《国防科技大学学报》2014年06期
【摘要】:向量化算法映射是向量处理器的难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法:将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重叠,让内核始终以峰值速度运行,从而取得最佳的计算效率;将不规则的三角矩阵乘法计算均衡分布到各个向量处理单元,充分开发向量处理器的多级并行性;将结果矩阵保存在乘数矩阵中,实现原位计算,节省了存储空间。实验结果表明,提出的向量化方法使三角矩阵乘法性能达到1053.7GFLOPS,效率为91.47%。
[Abstract]:Vectorization algorithm mapping is a difficult problem in vector processors. An efficient triangulation matrix multiplication vectorization method supporting in situ computation is proposed: L1D is configured into SRAM mode, and the data transfer of multilevel storage structure is smoothed by double buffering ping-pong mode, which makes the computation of the kernel overlap with the DMA data transfer completely. The kernel can always run at the peak speed, so as to obtain the best computing efficiency, and distribute the irregular triangular matrix multiplication to every vector processing unit to fully develop the multilevel parallelism of the vector processor. The result matrix is saved in the multiplier matrix, and the in-situ calculation is realized, and the storage space is saved. The experimental results show that the performance of triangular matrix multiplication is 1053.7 GFLOPS and the efficiency is 91.47.
【作者单位】: 国防科技大学计算机学院;
【基金】:国家自然科学基金资助项目(61133007)
【分类号】:O183.1;TP332
【相似文献】
相关期刊论文 前10条
1 魏莹;;矩阵乘法在交通与通讯网络中的应用[J];广东交通职业技术学院学报;2013年01期
2 龙腾芳;矩阵乘法的两个算法分析[J];韶关学院学报(自然科学版);2001年09期
3 马磊,赵萍;矩阵乘法教学中的几点思考[J];云南财贸学院学报;2001年S1期
4 胡辉;矩阵乘法和高斯-约当消元法并行实现的研究[J];上海航天;2002年06期
5 赵冠华,刘洁;矩阵乘法的一个应用[J];邯郸师专学报;2002年03期
6 蒋昌俊,,吴哲辉;“矩阵乘法的一个最佳算法”一文的进一步研究[J];计算物理;1994年02期
7 宋国际;;一类实际问题与矩阵乘法的意义[J];数学学习与研究;2010年21期
8 沐定夷;;矩阵在Strassen乘法下的最佳嵌入[J];上海交通大学学报;1986年04期
9 蒋昌俊,吴哲辉;矩阵乘法的一个最佳算法[J];科学通报;1989年04期
10 周德俊,赵玉凤,林彦芬;矩阵乘法的一个新快速算法[J];河北地质学院学报;1995年05期
相关会议论文 前1条
1 焦海澎;钱立敏;;利用进程环模拟矩阵的并行算法[A];天津市土木工程学会第七届年会优秀论文集[C];2005年
本文编号:1934163
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1934163.html