一种支持阻塞分段传输的DMA部件的设计与实现
本文关键词:一种支持阻塞分段传输的DMA部件的设计与实现 出处:《计算机研究与发展》2014年S1期 论文类型:期刊论文
更多相关文章: 通用矩阵乘(GEMM) 软件流水 DMA控制器 分段传输 阻塞分段传输
【摘要】:针对通用矩阵乘(GEneralized matrix multiplication,GEMM)核心算法,提出了一种支持阻塞分段传输的直接存储访问控制器(direct memory access,DMA)结构.当有多个核进行核内到核外的数据传输时,阻塞分段传输机制可以替代软件锁同步的方式自动检测这些事务的状态,并在所有事务结束后启动分段传输事务.在NC-VERILOG仿真平台上的仿真结果表明,与软件锁同步方式相比,阻塞分段传输结构有2方面的优势:1)对单纯的数据传输,使用阻塞分段传输结构启动分段传输可以至少提前50拍;2)对GEMM核心算法,使用阻塞分段传输结构比使用软件锁同步的运行时间减少10 000拍以上.
[Abstract]:The core algorithm of general-purpose matrix multiplication is GEneralized matrix multiplicity. In this paper, a direct memory access for blocking segmented transmission is proposed. DMA structure. When there are more than one core to the core of the data transmission, blocking segmented transmission mechanism can replace the software lock synchronization mode automatically detect the status of these transactions. The simulation results on the NC-VERILOG platform show that it is compared with the software lock synchronization mode. Blocking segmented transmission structure has two advantages: (1) for pure data transmission, the blocking segmented transmission structure can start segmented transmission at least 50 beats ahead of time; 2) for the core algorithm of GEMM, the running time of using blocking segmented transmission structure is more than 10,000 beats less than that of using software lock synchronization.
【作者单位】: 国防科学技术大学计算机学院;
【基金】:国家自然科学基金项目(61303065) 国防科学技术大学科研计划项目(JC13-06-02) 教育部高等学校博士学科点专项科研基金项目(20134307120028)
【分类号】:TP333
【正文快照】: 通用矩阵乘(GEneralized matrix multiplication,GEMM[1-2])运算约占高性能计算Linpack基准程序(high performance computing Linpack benchmark,HPL)[3-4]总运算量的90%,因此,GEMM能否高效实现对HPL的效率有着重要的影响.GEMM核心程序是在单个核中快速计算矩阵乘加的程序,该
【参考文献】
相关期刊论文 前2条
1 晏小波;唐滔;杨学军;;FT64并行系统上的EP和GEMM并行算法设计与实现[J];计算机研究与发展;2008年S1期
2 陈纪孝;李勇;;软件流水循环缓冲的设计与实现[J];计算机科学;2013年04期
【共引文献】
相关期刊论文 前4条
1 石有计;基于单片机控制的供水系统改造方案[J];机床电器;2005年02期
2 李勇;胡慧俐;杨焕荣;;VLIW处理器循环指令缓冲器设计与实现[J];计算机应用;2014年04期
3 方志红;常越;;TMS320C6X的SPLOOP技术[J];雷达科学与技术;2014年04期
4 陈忠碧,林峰,何道清,党卫中;MPV-3显微光度计镜质组反射率测控系统设计[J];西南石油学院学报;2002年05期
相关博士学位论文 前2条
1 晏小波;FT64流处理技术:体系结构、编程语言、编译技术及编程方法[D];国防科学技术大学;2007年
2 张小强;基于事务的软件投机并行机制研究[D];国防科学技术大学;2009年
相关硕士学位论文 前7条
1 和小元;并行计算编程中的软件事务内存算法研究与综合优化[D];复旦大学;2011年
2 李波;LPG液态喷射发动机工作过程研究[D];浙江大学;2002年
3 查靓;机电控制系统拟实设计与仿真系统研究[D];武汉理工大学;2002年
4 梁建明;电阻炉炉温控制系统的研究[D];河北工业大学;2003年
5 陈治军;柯克亚长输首站循环水泵集散监控系统[D];西南石油学院;2004年
6 张斌;脉动风洞试验模型姿态调整系统设计与研究[D];国防科学技术大学;2009年
7 刘钰;基于线阵CCD的路面弯沉盆检测方法研究[D];长安大学;2012年
【二级参考文献】
相关期刊论文 前4条
1 李文龙,刘利,汤志忠;软件流水中的循环展开优化[J];北京航空航天大学学报;2004年11期
2 廖继荣,董海涛;利用循环展开最大化软件流水线性能(英文)[J];纯粹数学与应用数学;2004年03期
3 梁静;陈志坚;孟建熠;;基于循环的指令高速缓存访问预测方法[J];计算机应用研究;2012年07期
4 董锐;王志君;梁利平;;基于数据流的指令调度器的设计与实现[J];微电子学与计算机;2011年11期
,本文编号:1419524
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1419524.html