当前位置:主页 > 科技论文 > 计算机论文 >

基于Intel Xeon Phi的稀疏矩阵向量乘性能优化

发布时间:2019-04-21 19:35
【摘要】:稀疏矩阵向量乘(Sp MV)是线性求解系统等科学计算中重要的计算核心.鉴于传统的稀疏矩阵向量乘算法在Intel Xeon Phi众核集成架构上存在SIM D利用率低,不规则访存开销高及负载不均衡的问题,难以发挥其运算能力.本文针对Intel Xeon Phi的体系结构特点,提出了一种通用的分块压缩存储表示的稀疏矩阵向量乘并行算法:(1)在ELLPACK存储格式基础上按列分块及压缩矩阵,增加非零元的密度,提高SIMD利用率;(2)通过精心的数据重排,保留矩阵非零元本身的局部性,从而提高数据重用率,降低访存开销;(3)将矩阵压缩后划分成近似等大的矩阵块并静态等量分配到不同核上计算,使各核负载均衡.实验结果表明,与Intel Xeon Phi上已有的MKL数学库中的CSR算法相比,本算法获得了更高的计算访存比,性能比M KL的CSR算法平均快2.05倍.
[Abstract]:Sparse matrix vector multiplication (Sp MV) is an important core of scientific computation such as linear solution system. Because the traditional sparse matrix vector multiplication algorithm has the problems of low utilization of SIM D, high overhead of irregular memory access and unbalanced load in the Intel Xeon Phi multikernel integration architecture, it is difficult to give full play to its computing power. According to the characteristics of Intel Xeon Phi architecture, this paper proposes a general sparse matrix vector multiplication algorithm based on block compression storage: (1) based on the ELLPACK storage format, the sparse matrix vector multiplication algorithm is proposed to increase the density of non-zero elements by column block and compression matrix. Improve the utilization rate of SIMD; (2) by meticulous data rearrangement, the locality of non-zero elements of the matrix is retained, so as to improve the data reuse rate and reduce the memory access overhead; (3) the compressed matrix is divided into approximately equal-size matrix blocks and distributed to different cores in static and equal quantities, so that the load of each core can be balanced. The experimental results show that compared with the CSR algorithm in the MKL mathematical library on Intel Xeon Phi, the proposed algorithm achieves a higher memory-to-computation ratio, and its performance is 2.05 times faster than that of MKL's CSR algorithm on average.
【作者单位】: 中国科学技术大学计算机科学与技术学院;
【基金】:国家"八六三"高技术研究发展计划项目(2012AA010901,2012AA010902)资助
【分类号】:TP332;O241.6

【相似文献】

相关期刊论文 前10条

1 张奠成 ,姚栋义;电子电路机助分析和设计中的稀疏矩阵技术[J];合肥工业大学学报;1981年02期

2 匡云太;一个缩减非对称稀疏矩阵的带宽和外形的算法[J];同济大学学报;1987年03期

3 于继业;稀疏矩阵块对角化的一种方法[J];数学的实践与认识;1988年03期

4 黄东泉;有向图在结构不对称稀疏矩阵重排序中的应用[J];西安交通大学学报;1982年06期

5 陆黎明;陈海强;朱鸿鹗;;稀疏矩阵技术在网络分析中的应用[J];上海师范学院学报(自然科学版);1984年03期

6 郑志镇,李尚健,李志刚;稀疏矩阵带宽减小的一种算法[J];华中理工大学学报;1998年12期

7 秦体恒;李学相;安学庆;;稀疏矩阵存储算法的探讨[J];河南机电高等专科学校学报;2008年01期

8 周永法;稀疏矩阵的并行算法[J];北京航空学院学报;1982年04期

9 王玉卿;高斯消元的顺序和稀疏矩阵的图解[J];沈阳工业大学学报;1993年03期

10 应宏;;稀疏矩阵链式存储的一种实现[J];牡丹江师范学院学报(自然科学版);1997年01期

相关硕士学位论文 前5条

1 胡耀国;基于GPU的有限元方法研究[D];华中科技大学;2011年

2 梁添;基于GPU的稀疏矩阵运算优化研究[D];华中科技大学;2012年

3 吴长江;基于CUDA的大规模线性稀疏方程组求解器的设计[D];电子科技大学;2013年

4 刘恩益;基于GPU的不可压缩管流并行数值模拟关键技术研究[D];杭州电子科技大学;2014年

5 张兰;稀疏矩阵方程组预处理迭代技术研究[D];华南理工大学;2010年



本文编号:2462494

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2462494.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dd338***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com