当前位置:主页 > 科技论文 > 计算机论文 >

面向异构体系结构的稀疏矩阵算法研究

发布时间:2018-09-10 20:16
【摘要】:面向异构体系结构的稀疏矩阵算法已经成为高性能计算领域的关键问题之一。稀疏矩阵算法是自然科学和社会科学中许多领域进行数值模拟计算时的关键技术和性能瓶颈,为了提高稀疏矩阵算法的计算性能,需要提高相应算法在特定平台上的计算效率。然而,一方面,稀疏矩阵算法的计算与访存行为与矩阵的稀疏结构相关,是典型的不规则类算法,很难发掘时间与空间的局部性;另一方面,随着包含算法加速器的异构并行体系结构成为高性能计算机体系结构的主流,并行程序执行效率的影响因素日益复杂多样,传统的面向具体平台的程序并行与优化方法已经无法满足高效率并行程序的开发需求。为了应对这些问题和挑战,本文对面向异构体系结构的稀疏矩阵算法进行了深入的研究,主要工作与创新点如下:(1)提出了面向CPU-GPU异构平台的搜索方向优化的宽度优先搜索算法。本文实现了基于GPU的自底向上的宽度优先搜索算法,提高了GPU线程访存的连续性并降低了线程间负载的不均衡,并进一步实现了CPU-GPU协同的自底向上的宽度优先搜索算法,充分利用了CPU-GPU异构并行计算平台上所有的计算资源,并有效提高了宽度优先搜索算法对大规模节点前沿的处理速度。在此基础上,设计了面向CPU-GPU异构体系结构的优化搜索方向的宽度优先搜索算法,通过结合基于多核CPU的自顶向下的串行宽度优先搜索算法、自顶向下的并行宽度优先搜索算法以及CPU-GPU协同的自底向上的宽度优先搜索算法,提高了宽度优先搜索算法对不同规模节点前沿的适应性。(2)提出了面向CPU-GPU异构平台的稀疏矩阵向量乘算法。本文提出了基于索引信息压缩的稀疏矩阵分块存储数据结构,通过合并位置相近的同行非零元,减少了矩阵非零元素对应的索引信息的数据量,从而一方面提高了稀疏矩阵访存的规则性和局部性,另一方面控制了填零元所引入的额外的计算和访存开销,并通过采用二级混合存储数据结构提高了对于矩阵不同稀疏结构的适应性。在此基础上,实现了基于计算访存量的负载均衡算法,分别设计了针对多核CPU和GPU的优化的Sp MV算法,有效的提高了稀疏矩阵向量乘算法的计算效率,并进一步实现了CPU-GPU协同的稀疏矩阵向量乘算法,充分发掘了异构体系结构计算平台的计算能力。(3)提出了面向异构平台的基于超节点数据结构的稀疏矩阵分解算法。本文以稀疏矩阵Cholesky分解算法为研究对象,在数据组织方面,改进了稀疏矩阵超节点数据结构,通过超节点合并和分块控制计算粒度;在计算调度方面,将分解过程映射为一系列的数据块任务,并设计了相应的任务生成与调度算法,在满足数据依赖性的前提下提高任务的并行性,从而显著提高了稀疏矩阵Cholesky分解算法在GPU上的实现效率。通过将控制任务和计算任务分别映射到CPU和GPU上,有效提高了CPU-GPU异构平台上稀疏矩阵分解算法的计算性能。(4)提出了面向CPU-GPU异构平台的稀疏三角方程组求解算法。本文提出了面向稀疏结构的分块处理策略,根据稀疏三角矩阵非零元密度的不同将计算过程分解,并设计了基于分块数据结构的稀疏三角方程组求解算法。在此基础上,设计了面向负载均衡的线程映射算法,并针对GPU设计了基于线程warp的计算组织策略,降低了GPU线程的控制分支所造成的性能损失,并进一步实现了CPU-GPU协同的稀疏三角方程组求解并行算法,有效提高了CPU-GPU异构平台上稀疏三角方程组求解算法的计算效率。
[Abstract]:Sparse matrix algorithm for heterogeneous architecture has become one of the key problems in high performance computing. Sparse matrix algorithm is the key technology and performance bottleneck in many fields of natural science and social sciences. In order to improve the performance of sparse matrix algorithm, it is necessary to improve the corresponding algorithm in particular. However, on the one hand, the computation and memory access behavior of the sparse matrix algorithm is related to the sparse structure of the matrix, and it is a typical irregular algorithm. It is difficult to discover the locality of time and space; on the other hand, with the heterogeneous parallel architecture including the algorithm accelerator, it becomes the main architecture of the high performance computer architecture. In order to meet these problems and challenges, the sparse matrix algorithm for heterogeneous architecture is studied in this paper. The main work is as follows:1. The main innovations are as follows: (1) A breadth-first search algorithm for CPU-GPU heterogeneous platform search direction optimization is proposed. This paper implements a GPU-based bottom-up breadth-first search algorithm, which improves the continuity of GPU thread access and reduces the load imbalance between threads, and further realizes the bottom-up CPU-GPU cooperation. Width-first search algorithm makes full use of all computing resources on CPU-GPU heterogeneous parallel computing platform, and effectively improves the processing speed of width-first search algorithm for large-scale node frontier. On this basis, an optimized search direction search algorithm for CPU-GPU heterogeneous architecture is designed. The top-down serial width-first search algorithm based on multi-core CPU, the top-down parallel width-first search algorithm and the CPU-GPU cooperative bottom-up width-first search algorithm improve the adaptability of the width-first search algorithm to different scale node frontiers. (2) The sparse matrix orientation for CPU-GPU heterogeneous platform is proposed. In this paper, a sparse matrix block storage data structure based on index information compression is proposed. By merging peer-to-peer non-zero elements with similar positions, the amount of data of index information corresponding to non-zero elements of the matrix is reduced. Thus, the regularity and locality of sparse matrix access are improved on the one hand, and the zero-filling elements are controlled on the other hand. Additional computation and memory access overhead are added, and the adaptability to different sparse structures of the matrix is improved by using a two-level hybrid storage data structure. On this basis, load balancing algorithm based on computational memory access is implemented, and optimized Sp MV algorithm for multi-core CPU and GPU is designed, which effectively improves the sparse matrix vector. The computational efficiency of the multiplication algorithm is improved, and the CPU-GPU cooperative sparse matrix vector multiplication algorithm is further realized, which fully exploits the computing capability of heterogeneous architecture computing platform. (3) A sparse matrix decomposition algorithm based on super-node data structure for heterogeneous platform is proposed. In the aspect of data organization, the sparse matrix super-node data structure is improved, and the computing granularity is controlled by super-node merging and partitioning; in the aspect of computing scheduling, the decomposition process is mapped into a series of data block tasks, and the corresponding task generation and scheduling algorithm is designed to improve the parallelism of tasks under the premise of satisfying the data dependence. By mapping control tasks and computing tasks to CPU and GPU respectively, the performance of the sparse matrix decomposition algorithm on CPU-GPU heterogeneous platform is effectively improved. (4) A sparse triangular equations solving algorithm for CPU-GPU heterogeneous platform is proposed. A block processing strategy for sparse structure is proposed, and the calculation process is decomposed according to the non-zero element density of sparse triangular matrix, and a sparse triangular equations solving algorithm based on block data structure is designed. On this basis, a load balancing oriented thread mapping algorithm is designed, and a thread warp-based meter is designed for GPU. Computational organization strategy reduces the performance loss caused by the control branches of GPU threads, and further realizes the CPU-GPU cooperative parallel algorithm for sparse trigonometric equations, which effectively improves the computational efficiency of sparse trigonometric equations solving algorithm on CPU-GPU heterogeneous platform.
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP301.6;TP332

【相似文献】

相关期刊论文 前10条

1 徐卫克;;体系结构评估方法的研究与实现[J];计算机与现代化;2009年08期

2 范玉顺;;面向服务的企业的体系结构与关键技术[J];航空制造技术;2010年03期

3 姜志平;丁峰;易侃;罗晨;;综合电子信息系统综合级体系结构概念及框架[J];指挥信息系统与技术;2012年03期

4 张佳南;葛健;潘海侠;;论体系结构[J];计算机科学;2012年S2期

5 李斌;64位体系结构的研制[J];管理科学文摘;1997年05期

6 ;新一代32位RISC体系结构[J];电子产品世界;1998年Z1期

7 於丹;体系结构,来自低潮时期的回顾与思考[J];微电脑世界;1999年09期

8 彭涛,蒋凡,孟宪海,李曦,赵振西;RISC体系结构计算机的中断检测[J];计算机工程;2000年07期

9 周俊,叶酉荪;一种战区综合电子信息系统互通体系结构[J];电子工程师;2001年03期

10 ;全球商定包括3G的无线体系结构[J];广东通信技术;2001年11期

相关会议论文 前10条

1 董永贵;董恩生;贾惠波;;生物启发仪器的体系结构及实现技术[A];第二届全国信息获取与处理学术会议论文集[C];2004年

2 王翠茹;高丽鲜;;元数据集成体系结构的研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年

3 魏晨曦;房鸿瑞;;NASA未来深空测控新概念研究[A];中国空间科学学会第七次学术年会会议手册及文集[C];2009年

4 甘仞初;谢莹;曹炳文;;需求驱动的自适应体系结构的知识体系研究[A];第八届中国管理科学学术年会论文集[C];2006年

5 李俊超;张占月;甘朝虹;杨欣;;C~4ISR体系结构设计方法研究[A];2013第一届中国指挥控制大会论文集[C];2013年

6 余亚平;马秀琴;;国内PACS系统浅析[A];中华医学会第十三届全国放射学大会论文汇编(下册)[C];2006年

7 李海灵;;信息化矿山建设体系结构在嘉乐泉煤矿的应用[A];煤矿自动化与信息化——第21届全国煤矿自动化与信息化学术会议暨第3届中国煤矿信息化与自动化高层论坛论文集(下册)[C];2011年

8 余毅敏;何川;杨青彬;;浅析移动Agent技术及其在TMN管理中的应用优势[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

9 陈英武;葛冰峰;熊健;姜江;杨克巍;;基于可执行体系结构的体系优化设计过程[A];经济全球化与系统工程——中国系统工程学会第16届学术年会论文集[C];2010年

10 楚旺;钱德沛;;基于体系结构的软件生产线开发方法的形式化框架[A];2005年全国理论计算机科学学术年会论文集[C];2005年

相关重要报纸文章 前10条

1 刘群峰邋李德彪;重视体系结构力的再生[N];中国国防报;2007年

2 ;Power Architecture:不断满足新兴市场需求[N];中国电子报;2006年

3 ;电联关注面向用户基于业务的体系结构[N];人民邮电;2001年

4 ;EA的新回报[N];网络世界;2005年

5 中科院计算所 孙凝晖;体系结构—创新的步伐不断[N];计算机世界;2003年

6 ;王钢:发展通用CPU走自主知识产权之路[N];人民政协报;2004年

7 ;网络体系:促进电信与IP的融合[N];人民邮电;2000年

8 梁懿娴;美国F5公司推出互联网控制体系结构[N];国际商报;2001年

9 安烨;企业门户的特点及体系结构[N];网络世界;2001年

10 本报记者 李良玉;“双赢”的战略决策[N];计算机世界;2000年

相关博士学位论文 前10条

1 朱玄;基于忆阻器的存储加密体系结构技术[D];国防科学技术大学;2014年

2 邹丹;面向异构体系结构的稀疏矩阵算法研究[D];国防科学技术大学;2013年

3 文梅;流体系结构关键技术研究[D];国防科学技术大学;2006年

4 李嘉欣;基三体系结构中并行运算的关键机制研究[D];北京理工大学;2010年

5 李长云;基于体系结构的软件动态演化研究[D];浙江大学;2005年

6 姜军;可执行体系结构及DoDAF的可执行化方法研究[D];国防科学技术大学;2008年

7 伍楠;高效能流体系结构关键技术研究[D];国防科学技术大学;2008年

8 樊金斗;高性能路由器中存储体系结构的研究[D];清华大学;2013年

9 高妍妍;ASIP体系结构形式化建模与验证方法研究[D];中国科学技术大学;2009年

10 何义;流体系结构指令管理及系统虚拟化仿真技术研究[D];国防科学技术大学;2010年

相关硕士学位论文 前10条

1 桂军;板—墙体系结构抗震性能分析[D];昆明理工大学;2015年

2 祝家意;一种产品线体系结构可变性设计方法[D];复旦大学;2010年

3 徐斌;基于体系结构方法的建模工具扩展研究[D];电子科技大学;2010年

4 常武;三层分布式PACS体系结构的研究与实现[D];北京工业大学;2001年

5 姚知力;产品生命周期管理系统的体系结构及关键技术研究[D];西北工业大学;2005年

6 李轩;基于一体化卫星体系结构的星载软件快速开发环境的研究与实现[D];国防科学技术大学;2010年

7 徐红梅;基于体系结构的第三方物流信息系统建模研究[D];大连海事大学;2008年

8 张夏;体系结构在线演化技术及其变更影响分析研究[D];复旦大学;2009年

9 姜文峰;基于体系结构的复用技术研究及其在用电营业系统中的应用[D];河海大学;2003年

10 郝永春;基于排队理论的软件体系结构性能研究[D];太原理工大学;2003年



本文编号:2235500

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2235500.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户77c3a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com