当前位置:主页 > 科技论文 > 计算机论文 >

利用Stencil建模及评估Intel IMCI vgather指令

发布时间:2018-06-21 01:34

  本文选题:性能建模 + vgather ; 参考:《计算机工程与科学》2016年09期


【摘要】:Intel Xeon Phi协处理器的指令集IMCI引入了硬件实现的vgather指令,旨在帮助512位SIMD寄存器访问非连续内存地址上的数据。然而实验结果显示,vgather很有可能成为应用在Xeon Phi协处理器上关键的性能瓶颈之一。基于以上结论,针对vgather的性能建模可以帮助用户深入地掌握和理解Xeon Phi协处理器的性能特性。在实验方法上,本文方法与现存的通过程序段内嵌入汇编代码进行数据统计不同,使用PAPI等性能分析工具直接收集硬件计数器的统计结果,作为模型的实验数据。本文的性能模型基于AGI事件次数和根据VPU_DATA_READ次数估算得出的vgather所导致的平均延迟构建而成。该模型能够对Xeon Phi应用代码中由vgather所导致的总延迟进行预测。最终,为了验证模型预测的准确性,将该模型应用在三维7点stencil应用代码上,预测结果显示,vgather耗时占计算总耗时的约40%。再将该结果与利用intrinsics指令去除vgather后的计算耗时进行了对比验证,结果显示模型预测准确。基于上述结论,采用硬件计数器的统计结果在Xeon Phi协处理器上针对vgather构建了性能模型。同时,通过与其他平台的vgather对比,认为该模型也可以应用在同样具备vgather的Intel CPU处理器平台上。
[Abstract]:The instruction set IMCI of Intel Xeon Phi coprocessor introduces hardware-implemented vgather instructions to help 512-bit SIMD registers access data on discontinuous memory addresses. However, the experimental results show that Vgather may become one of the key performance bottlenecks in Xeon Phi coprocessor. Based on the above conclusions, the performance modeling of vgather can help users to grasp and understand the performance characteristics of Xeon Phi coprocessor. In the experimental method, the method in this paper is different from the existing data statistics through embedded assembly code in the program segment. The performance analysis tools such as API are used to collect the statistical results of the hardware counter directly as the experimental data of the model. The performance model of this paper is based on the average delay caused by the number of vgather events and the estimated number of vgather events. The model can predict the total delay caused by vgather in Xeon Phi application code. Finally, in order to verify the accuracy of the model prediction, the model is applied to 3D 7-point stencil application code. The prediction results show that the time consuming of the model is about 40% of the total calculation time. The results are compared with the calculation time after vgather removal by intrinsics instruction, and the results show that the model is accurate. Based on the above conclusion, the performance model of vgather is built on Xeon Phi coprocessor with the statistical results of hardware counter. At the same time, compared with other vgather platforms, the model can also be applied to Intel processor platforms with vgather.
【作者单位】: 上海交通大学高性能计算中心;东京工业大学;Intel公司;
【基金】:国家863计划(2014AA01A302) 日本学术振兴会RONPAKU Fellowship资助
【分类号】:TP332

【相似文献】

相关期刊论文 前10条

1 张雨浓;马伟木;李克讷;易称福;;简述协处理器发展历程及前景展望[J];中国科技信息;2008年13期

2 赵成彦;;80387协处理器的选购与安装[J];电脑爱好者;1995年07期

3 朱樟明,周端,杨银堂,徐阳扬;嵌入式协处理器初等函数的快速统一实现[J];电子与信息学报;2004年02期

4 史焱,吴行军;高速双有限域加密协处理器设计[J];微电子学与计算机;2005年05期

5 金钊;;32位嵌入式CPU中系统控制协处理器的设计与实现[J];电子设计应用;2006年10期

6 吴康;;应用安全协处理器构建一个金融终端中的安全嵌入式系统[J];中国公共安全(综合版);2006年06期

7 孙季丰;袁春林;盛艳青;刘斌;;一种通用安全协处理器[J];计算机工程;2008年22期

8 魏强;金然;寇晓蕤;王清贤;;基于安全协处理器保护软件可信运行框架[J];计算机工程与设计;2008年15期

9 孙俊杰;;闪存大佬推协处理器将闪存推向更广阔市场[J];中国电子商情(基础电子);2012年08期

10 张慧娟;;新型语音协处理器提升快速精确语言识别及处理能力[J];电子设计技术;2012年09期

相关会议论文 前4条

1 欧庆于;张昌宏;;应用安全协处理器构建安全嵌入式系统[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年

2 孟宪元;;FPGA实现DSP系统的结构模型[A];全国第二届嵌入式技术联合学术会议论文集[C];2007年

3 庞博;张长明;;基于CORDIC算法的数字协处理器设计与测试[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年

4 李建赢;王虹宇;洪朝群;姜巍;;PIC/MC模型在Intel Xeon Phi上的初步实现与优化[A];第十六届全国等离子体科学技术会议暨第一届全国等离子体医学研讨会会议摘要集[C];2013年

相关重要报纸文章 前10条

1 记者 周源;英特尔首批至强融合协处理器问世[N];网络世界;2012年

2 沈文;AMD+ATI能否双赢?[N];计算机世界;2006年

3 记者  孙永杰;“核”战何时休 客户需求最重要[N];中国电子报;2006年

4 《网络世界》记者 周源;MIC:以后请叫我“Phi”[N];网络世界;2012年

5 马文方;AMD收购ATi值不值?[N];中国计算机报;2006年

6 Altera公司高级产品行销经理 Paul Ekas;FPGA协处理器优化汽车信息系统设计[N];中国电子报;2004年

7 ;TD-SCDMA手机采用协处理器[N];网络世界;2001年

8 ;新品速递[N];计算机世界;2001年

9 ;采用协处理器的TD-SCDMA手机设计[N];人民邮电;2001年

10 岳婷;AP面临基带和协处理器竞争[N];中国电子报;2007年

相关博士学位论文 前5条

1 郑乔石;暗硅时代CoDA架构可扩展性及能效问题研究[D];西北工业大学;2015年

2 宋宇鲲;动态可重构协处理器研究[D];合肥工业大学;2006年

3 杜学亮;定制指令与协处理器加速机制的研究[D];中国科学技术大学;2009年

4 郑裕峰;高速包分类协处理器及网络平台研究[D];中国科学技术大学;2007年

5 王荣华;动态二进制翻译优化研究[D];浙江大学;2013年

相关硕士学位论文 前10条

1 宋阳;TD-LTE系统PUSCH信道关键技术及其实现[D];电子科技大学;2015年

2 黄亚晴;基于FPGA矢量协处理器架构的信号处理机研究[D];中国舰船研究院;2015年

3 杨静;基于有限差分的心电模型模拟在CPU与多MIC协处理器平台的并行与优化[D];国防科学技术大学;2013年

4 陈呈;面向MIC平台的OpenACC实现与优化关键技术研究[D];国防科学技术大学;2013年

5 刘春;HINOC2.0 MAC协处理器的仿真与板级验证[D];西安电子科技大学;2014年

6 梁志力;异构多核系统中协处理器优化[D];合肥工业大学;2015年

7 庞博;高性能专用数字协处理器的设计与测试[D];电子科技大学;2009年

8 淮侃;手机多媒体协处理器芯片的应用与实现[D];西安电子科技大学;2007年

9 金钊;64位高性能嵌入式CPU中系统协处理器的设计与实现[D];同济大学;2007年

10 范凯;基于动态可重构技术的阵列型协处理器架构设计与实现[D];上海交通大学;2010年



本文编号:2046580

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2046580.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dae23***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com