向量并行度指导的循环SIMD向量化方法
本文关键词: SIMD扩展部件 向量并行度 Loop-aware 循环展开 出处:《软件学报》2017年04期 论文类型:期刊论文
【摘要】:SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想是:首先,通过循环展开将迭代间并行转换为迭代内并行,使循环体内的同构语句条数足够多;再利用SLP方法进行向量发掘.但当循环展开不合法或者并行度低于向量化因子时,Loop-aware方法无法实现程序向量并行性的发掘.因此提出了向量并行度指导的循环向量化方法,依据迭代间并行度、迭代内并行度和向量化因子构建循环向量化方法选择方案,同时提出了不充分向量化方法发掘并行度低于向量化因子的循环向量并行性,最后,依据向量并行度对生成的向量循环进行展开.经过标准测试集测试,向量并行度指导的循环SIMD向量化方法比Loop-aware方法的识别率提升了107.5%,性能提升了12.1%.
[Abstract]:The SIMD extension is an accelerator integrated into a general-purpose processor designed to explore data-level parallelism in fields such as multimedia and scientific computing. The two basic vector mining methods are to discover the parallel Loop-based method between iterations and the SLP method. Loopaware method is the improvement of the SLP method. The main ideas are as follows: first of all, The parallelism between iterations is transformed into intra-iteration parallelism by loop expansion, so that the number of isomorphic statements in the loop is sufficient. Then the SLP method is used for vector discovery. However, when the cyclic expansion is illegal or the degree of parallelism is lower than the vectorization factor, Loop-aware cannot realize the discovery of program vector parallelism. Therefore, a cyclic vectorization method guided by vector parallelism is proposed. According to the degree of parallelism between iterations, the degree of parallelism within iterations and the vectorization factor, the selection scheme of cyclic vectorization method is constructed. At the same time, an inadequate vectorization method is proposed to discover the parallelism of cyclic vectors with less parallelism than the vectorization factor. Finally, The vector cycle is expanded according to the degree of vector parallelism. Through the standard test set test, the recognition rate of the vector parallelism directed cyclic SIMD vectorization method is 107.5% higher than that of the Loop-aware method, and the performance is improved by 12.1%.
【作者单位】: 数学工程与先进计算国家重点实验室(解放军信息工程大学);防空兵指挥学院;
【基金】:“核高基”国家科技重大专项(2009ZX01036)~~
【分类号】:TP332
【参考文献】
相关期刊论文 前5条
1 高伟;赵荣彩;韩林;庞建民;丁锐;;SIMD自动向量化编译优化概述[J];软件学报;2015年06期
2 徐华叶;郑启龙;丁陈飞;徐东鹏;;面向多簇超长指令字DSP的向量化优化算法[J];计算机系统应用;2013年12期
3 彭飞;顾乃杰;高翔;孙明明;;龙芯3B的SIMD编译优化及分析[J];小型微型计算机系统;2012年12期
4 辛乃军;陈旭灿;孙海燕;阳柳;罗杰;淡孝强;王霁;;基于GCC的高性能DSP Matrix向量指令集扩展[J];计算机工程与科学;2012年01期
5 李玉祥;施慧;陈莉;;面向向量化的局部数据重组[J];小型微型计算机系统;2009年08期
【共引文献】
相关期刊论文 前10条
1 陈华军;王琦;洪超;方萌;;基于全局数据重组的循环倾斜优化[J];计算机与现代化;2017年06期
2 李忠武;;基于汇编语言教学中优化语言代码方法探讨与研究[J];电子测试;2017年10期
3 吕鹏伟;刘从新;赵一明;沈绪榜;;基于动态规划的自动向量化方法[J];北京理工大学学报;2017年05期
4 张素平;韩林;丁丽丽;王鹏翔;;新型超字级并行改进算法[J];计算机应用;2017年02期
5 贺婷;;基于数据级自动向量化的编译优化研究综述[J];智能计算机与应用;2016年06期
6 唐佳;王凡;刘福烈;;三维波动方程正演的三级并行加速[J];石油地球物理勘探;2016年05期
7 范超;赵荣彩;单征;李朋远;;结构体向量化中的存储优化[J];小型微型计算机系统;2016年09期
8 吕鹏伟;刘从新;沈绪榜;;一种新型自动向量化编译算法[J];武汉大学学报(理学版);2016年05期
9 丁丽丽;韩林;王冬;张素平;王鹏翔;于海宁;;依赖距离主导的向量化方法研究[J];计算机应用研究;2017年05期
10 张素平;王冬;丁丽丽;王鹏翔;宫一;于海宁;;一种基于SLP的新型编译框架[J];计算机应用研究;2017年01期
【二级参考文献】
相关期刊论文 前5条
1 徐华叶;郑启龙;丁陈飞;徐东鹏;;面向多簇超长指令字DSP的向量化优化算法[J];计算机系统应用;2013年12期
2 彭飞;顾乃杰;高翔;孙明明;;龙芯3B的SIMD编译优化及分析[J];小型微型计算机系统;2012年12期
3 辛乃军;陈旭灿;孙海燕;阳柳;罗杰;淡孝强;王霁;;基于GCC的高性能DSP Matrix向量指令集扩展[J];计算机工程与科学;2012年01期
4 李玉祥;施慧;陈莉;;面向向量化的局部数据重组[J];小型微型计算机系统;2009年08期
5 邹琼;董峻峰;;针对龙芯2号结构特征的GCC优化[J];小型微型计算机系统;2007年12期
【相似文献】
相关期刊论文 前10条
1 张为华;臧斌宇;王晔;钱兴隆;朱传琪;;基于共享向量的二维SIMD调度算法[J];计算机学报;2006年10期
2 李璞;孙亚辉;;64位环境SIMD性能优化技术研究[J];计算机与信息技术;2007年04期
3 卜士喜;竺红卫;;软件SIMD的研究及应用[J];计算机工程;2010年19期
4 侯永生;赵荣彩;黄磊;韩林;;面向SIMD扩展部件的循环优化研究[J];计算机科学;2014年05期
5 张为华;臧斌宇;;共享主存多SIMD结构及编译技术研究[J];计算机科学与探索;2009年01期
6 郭阳;丁伟;李振涛;;高性能算术SIMD模块的电路设计[J];微电子学与计算机;2010年09期
7 侯永生;赵荣彩;高伟;朱嘉枫;;SIMD扩展部件数据依赖关系约束条件研究[J];信息工程大学学报;2014年01期
8 吴松,章勇,姚庆栋;嵌入式SIMD控制核的设计研究[J];浙江大学学报(工学版);2001年02期
9 周西汉,刘勃,周荷琴,袁非牛;一种基于奔腾SIMD指令的快速背景提取方法[J];计算机工程与应用;2004年27期
10 张倩;;二维SIMD结构的低功耗调度[J];计算机工程;2009年10期
相关会议论文 前7条
1 梅家祥;王永文;邢座程;;SIMD模式下访存单元的验证[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(A辑)[C];2011年
2 付光远;;基于SIMD-MPP并行模型的图像调度与映射方法研究[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
3 高巍;宋妍;;基于SIMD体系结构的数据相关控制语句转化方法[A];2009年全国开放式分布与并行计算机学术会议论文集(上册)[C];2009年
4 朱明慧;;ADI浮点DSP软件编程中的指令并行与SIMD应用[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
5 李彦洁;庞一;孙立峰;;多视点视频编码中的SIMD优化研究[A];第四届和谐人机环境联合学术会议论文集[C];2008年
6 Liangchun Xu;Hongping Zhang;Wenfei Guo;Di Zhang;;A new SIMD correlatoralgorithm for GNSS software receivers toprocess complex IF data[A];第四届中国卫星导航学术年会论文集-S7 北斗/GNSS用户终端技术[C];2013年
7 吴铁彬;刘衡竹;杨惠;张剑锋;侯申;;一种快速SIMD浮点乘加器的设计与实现[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(B辑)[C];2011年
相关博士学位论文 前8条
1 杨惠;面向性能的SIMD DSP指令流调度技术研究[D];国防科学技术大学;2014年
2 侯永生;多重循环SIMD向量化方法及性能优化技术研究[D];解放军信息工程大学;2014年
3 张为华;共享主存多SIMD结构编译优化及结构研究[D];复旦大学;2006年
4 李玉祥;面向非多媒体程序的SIMD向量化方法及优化技术研究[D];中国科学技术大学;2008年
5 张凯;向量SIMD DSP上高效矩阵运算技术研究[D];国防科学技术大学;2013年
6 朱嘉华;SIMD编译优化方法研究[D];复旦大学;2005年
7 姜伟华;针对实际多媒体程序和多媒体扩展指令集的SIMD编译优化[D];复旦大学;2005年
8 魏帅;面向SIMD的向量化算法及重组技术研究[D];解放军信息工程大学;2012年
相关硕士学位论文 前10条
1 沈阳;基于SIMD指令的多核软件渲染器的设计与实现[D];浙江大学;2015年
2 王力;SIMD指令在生物序列串匹配里的应用[D];北京理工大学;2015年
3 黄娟娟;多线程多SIMD自动向量化技术研究[D];国防科学技术大学;2013年
4 赵芮;一款高性能64位DSP中SIMD结构FMAC的设计与验证[D];国防科学技术大学;2014年
5 林宗华;X-DSP定点乘累加的设计优化与验证[D];国防科学技术大学;2014年
6 宋贵环;YHFT-Matrix2编译器SIMD优化技术研究与实现[D];国防科学技术大学;2014年
7 黄胜兵;面向BWDSP的SIMD编译优化技术研究与实现[D];中国科学技术大学;2016年
8 胡辰;基于异构SIMD并行的高分辨率星载SAR原始数据快速模拟研究[D];北京化工大学;2016年
9 李国君;基于异构SIMD并行的高分辨率星载SAR快速成像研究[D];北京化工大学;2016年
10 徐沛文;32位高性能DSP SIMD向量存储器的设计和验证[D];国防科学技术大学;2015年
,本文编号:1514864
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1514864.html