并行向量访存单元的设计与优化
发布时间:2017-12-14 11:17
本文关键词:并行向量访存单元的设计与优化
更多相关文章: SIMD 并行向量访存 访存冲突 非对齐访问 FFT
【摘要】:现代通信技术的迅速发展和媒体处理信息的爆炸性增长,对数字信号处理器(DSP)的性能提出了更高的要求。速度和实时性信息处理需求的不断提高,促使高性能DSP向超宽度SIMD发展。如何为基于SIMD结构的DSP集成的多路运算单元提供高效、高带宽的访存数据成为其存储系统设计面临的重要问题。本文基于一款16路超宽SIMD结构高性能DSP内核Matrix2,设计实现了高带宽的并行向量访存单元(AM),研究了如何在特定应用中提高SIMD处理器的访存性能的方法。本文的主要工作和创新点体现在以下几个方面:1、基于Matrix2指令集体系结构,设计了一套支持半字(4B)、字(8B)、双字(16B)等多粒度数据访问的向量访存指令,其中提出了特殊的用于FFT算法向量加速的专用向量访存指令。2、支持两条并行的向量访存指令操作,每一条指令的数据带宽均高达256B/拍。双访问给SIMD并行运算部件提供了充足的数据带宽。3、支持SIMD非对齐访问。在字访存粒度和双字访存粒度上实现了SIMD非对齐访问,提高了向量访存的效率和灵活性。4、支持DMA并行访问,实现了低冲突率的两条向量访存指令和DMA读写四路请求的并行访存。采用特殊的地址高低位交叉存储体组织方式和优先级可配置的仲裁机制,可显著减少DMA后台数据传输对并行访存指令操作的打搅,减少了程序实际执行时间。5、以较低的硬件代价实现了易于扩展的访存流水线节拍同步控制器,保证了SIMD结构指令同步执行的正确性。6、设计了Cache结构的DMA传输接口,实现了并行向量访存单元和DMA之间的数据传输的带宽匹配,提高了并行向量访存单元的带宽使用效率。最后基于System Verilog的验证方法搭建模块级验证平台,对设计的AM进行了模块级功能验证,提高了验证效率;并在Matrix2系统级验证环境中完成了AM的功能验证模拟,验证的代码覆盖率达到了100%。系统级测试结果表明在不同点数下,FFT运算能获得1.29到2.26的加速比。同时,基于某厂家40nm工艺库进行逻辑综合,结合后端物理设计进行时序优化,结果达到了性能要求。
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP332
【相似文献】
中国期刊全文数据库 前1条
1 胡晓燕;;浅谈行向量引导的链表存储结构[J];电脑知识与技术(学术交流);2007年17期
中国硕士学位论文全文数据库 前2条
1 燕世林;并行向量访存单元的设计与优化[D];国防科学技术大学;2014年
2 刘敏;面向对象的并行向量库的设计与实现[D];哈尔滨工业大学;2006年
,本文编号:1287694
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1287694.html