基于SIMD的媒体处理器的数据存储与组织体系结构优化研究
发布时间:2020-06-08 09:22
【摘要】: 基于SIMD技术的媒体处理器在多媒体处理领域凭借着其良好的可编程性和高性能而备受关注。但是其性能的进一步提高却受制于一些非运算的因素,也就是通常所说的数据存储与组织。这主要是由多媒体处理的数据访问的灵活性和SIMD技术对算法的规整性的高度依赖性所导致。为了进一步的开发基于SIMD技术的媒体处理器的性能,本文分别从数据组织和存储两个方面来对其进行体系结构的优化。 首先,在数据组织方面,本文提出了一种基于显式数据置换的EDO-SIMD指令集体系结构。它将数据置换信息显式地声明在了指令字当中,同时将数据置换操作与数据计算和存储操作结合起来,通过这样的方法来降低由数据组织指令所带来的非计算开销。本文还给出了在一个baseline SIMD媒体处理器的基础上实现EDO-SIMD指令集体系结构的方法。基于H.264/AVC实时解码器的Benchmark实验结果表明,在仅仅只在硬件面积上增加了0.49%的情况下,所提出的EDO-SIMD可以达到1.34~1.40的性能加速比以及减少17.7%的代码长度。 然后,本文分别从两个方向上探讨了SIMD媒体处理器的片上存储系统的优化方案。其一是研究如何能将流访问与面向二维逻辑数据空间的并行存储器结合起来,在这个方面,本文提出了一个基于地址交织的二维流存储系统。该存储系统完成了二维逻辑空间到物理空间上并行存储器模块的映射。数据在物理存储器上进行了交织存放以支持行阵列和列阵列的同时访问。该交织算法在之前的交织算法基础上做了面向流访问的改进。基于H.264/AVC实时解码器的Benchmark实验结果表明,所述的二维流存储系统可以减少平均约32.0%的存储器访问率以及25.4%的实时处理中所需的时钟周期数。 在另一方面,本文致力于研究如何改进传统的基于线性偏差的地址 交织策略来解决其存储器冗余和无法支持模寻址的问题。本文提出了一种优化的基于线性偏差的交织策略,它采用了2pq(pq表示并行的数据通路路数)个存储器模块。为了克服在这种情况下带来的存储器模块冲突,所提出的交织策略在二维逻辑数据空间的水平方向上采用了线性的地址偏差,而在垂直方向上采用了非线性的地址偏差。实验结果表明,与之前的线性偏差交织策略相比,在pq=4或8的情况下,这里所提出的优化交织策略可以减少平均13.6%的片上存储器面积;在运动估计的Bechmark的测试下,可以减少平均35.5%的片外存储器的带宽。
【图文】:
图1一l视频应用数据类型和精度的分布对于传统的通用处理器而言,它的片上存储器通常只包含一个存储器模块,这个存储器模块的一个entry就是一个字,每个字又被分为若干个子字从而进行子字的并行。其中地址是按字(word)对齐的。假如要访问的数据也是严格的按照字进行地址对齐的话,那么这种子字并行的体系结构将工作的非常完美而且数据通路也将被充分利用。可是在多媒体处理中,事实往往并非如此,从而使得要想一个多媒体处理的应用能够完全利用所谓的子字并行变的非常复杂。尤其是视频处理中的运动估计,该算法中的大量一寻址都依赖于高效的非对齐的地址访问,也就是说一个数据字可以从内存中的任意一个位置开始。这种存储器模式被成为按字节对齐的模式。当前,地址按字节对齐的重要性已经为一些高性能处理器所接受和支持。比如IntelPentiumMMx[61,TexasInstrumentsC62x{7],StarCore[81,和TriMedia[9]这一类处理
(x飞3飞4‘ 16.‘1巧)’(h2,hZ力2,h2)(沉jZ一13“飞4“15)’功3,h3力3,h3)图2一 6FIR核心的土要数据操作因此这里新增加了一个数据置换网络PNZ到了a中,这样所实现的体系结构就是load指令只能将数据按照存储顺序从存储器中读出,,但是运算指令可以灵活地改变这些数据的组织顺序并进行计算。这样对于上面这个例子来讲,只需要一次性将xlZ到xlg从存储器中load到寄存器中,随后的各个计算指令只需要根据自己的组织顺序的需要从寄存器文件中读出这些数据即可,而寄存器文件的读写速度要远高于存储器,因此这样就消除了可能带来的新的读写瓶颈。图2一7.b给出了数据置换网络PNZ的微体系结构。山于它是安插在了RF和EXO这两级流水线之间,因此它必定会延长这一段的时延。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP37;TP333
本文编号:2702867
【图文】:
图1一l视频应用数据类型和精度的分布对于传统的通用处理器而言,它的片上存储器通常只包含一个存储器模块,这个存储器模块的一个entry就是一个字,每个字又被分为若干个子字从而进行子字的并行。其中地址是按字(word)对齐的。假如要访问的数据也是严格的按照字进行地址对齐的话,那么这种子字并行的体系结构将工作的非常完美而且数据通路也将被充分利用。可是在多媒体处理中,事实往往并非如此,从而使得要想一个多媒体处理的应用能够完全利用所谓的子字并行变的非常复杂。尤其是视频处理中的运动估计,该算法中的大量一寻址都依赖于高效的非对齐的地址访问,也就是说一个数据字可以从内存中的任意一个位置开始。这种存储器模式被成为按字节对齐的模式。当前,地址按字节对齐的重要性已经为一些高性能处理器所接受和支持。比如IntelPentiumMMx[61,TexasInstrumentsC62x{7],StarCore[81,和TriMedia[9]这一类处理
(x飞3飞4‘ 16.‘1巧)’(h2,hZ力2,h2)(沉jZ一13“飞4“15)’功3,h3力3,h3)图2一 6FIR核心的土要数据操作因此这里新增加了一个数据置换网络PNZ到了a中,这样所实现的体系结构就是load指令只能将数据按照存储顺序从存储器中读出,,但是运算指令可以灵活地改变这些数据的组织顺序并进行计算。这样对于上面这个例子来讲,只需要一次性将xlZ到xlg从存储器中load到寄存器中,随后的各个计算指令只需要根据自己的组织顺序的需要从寄存器文件中读出这些数据即可,而寄存器文件的读写速度要远高于存储器,因此这样就消除了可能带来的新的读写瓶颈。图2一7.b给出了数据置换网络PNZ的微体系结构。山于它是安插在了RF和EXO这两级流水线之间,因此它必定会延长这一段的时延。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP37;TP333
【引证文献】
相关硕士学位论文 前1条
1 苏和;基于形状信息的医学图像配准研究[D];上海交通大学;2008年
本文编号:2702867
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2702867.html