面向块编程应用的多核体系结构关键技术研究与设计
发布时间:2020-10-26 09:58
近年来,多媒体及无线通信技术的发展十分迅速。这些领域中使用到的很多热点算法的实现方式具有天生的并行性,非常适宜于在多核体系架构上实现。如何设计多核架构,在不显著增加其复杂度的情况下,使其可以更高效的并行处理数据,是一个非常关键的问题。 为了提高多核处理器的性能,简化其结构,本文研究内容集中于多核处理器的核间数据交换方式及特定并行算法在多核处理器上的映射和实现。本文给出一种应用对象为视频处理中常用并行算法的四核处理器架构,在设计中通过采用可配置共享寄存器以及在内核和数据存储器之间搭建多层总线两种方式建立多核处理器各内核间的数据通路,来改善多核处理器并行处理数据时的性能,提高数据交换效率。经验证,与使用共享cache的传统四核处理器相比,本文所设计的四核处理器可将文中列举的并行算法的实现周期大大缩短,极大的提高了处理器的处理性能。 文中详细介绍了构成多核处理器的单核结构、多核处理器的具体结构、多核处理器的数据交换机制、视频处理中常用的并行算法在多核处理器上的映射与实现以及对多核处理器的性能及相关算法的实现效果的评估与分析。
【学位单位】:上海交通大学
【学位级别】:硕士
【学位年份】:2011
【中图分类】:TP332
【部分图文】:
上海交通大学硕士学位论文该处理器是由美国斯坦福大学在 1997 年设计研制的[2]。该处理器在一块芯片上集成了四个处理单元,每个均为 MIPS R10000 处理核。HYDRA 处理器核间采用私有一级 cache,共享二级 cache,使用两条总线实现处理器和内存的互连,同时写信号在写总线上广播,从而实现读写一致性。该处理器在处理具有高度并行性的应用程序时表现出了极好的性能。但是对于并行性一般的应用程序,性能随之下降。该处理器的具体结构见图 1-1。
图 1- 2 CELL 处理器结构图[3]Fig.1-2 Structure of CELL processor3、RAW 处理器美国马萨诸塞大学正在开发的 RAW 处理器[4]可以说是 Tile 结构的先驱,它克服了布线延迟,充分利用了 Tile 结构丰富的硬件资源和有限的管脚资源。RAW 处理器由 16 个结构相同的 Tile 单元构成,而每个 Tile 单元由近似 MIPS 处理器的单指令发射内部处理计算流水线和网络构成。每个 Tile 单元可作为具有独立程序计数器的处理器工作,当指令或数据缓存发生错误时,则从配置在芯片外的主存获取数据。Tile 单元间的通信必须借助寄存器,所有布线均设计成短于 Tile 单元单边的长度。因此,即使是根据应用的性能要求或可用晶体管数的提高,而增加集成的 Tile 单元数也不会降低芯片的工作频率。假使试制芯片经过每个 Tile 单元时产生 1 个周期的延迟,则右下 Tile 单元要使用左上 Tile 单元生成的数据,会产生6 个周期的通信延迟。Tile 单元中的运算流水线由 8 级流水线构成,每条运算流水线都采用单指令发射的简单结构。尽管一个 Tile 单元每个时钟周期只能处理一条指令,但 16 个 Tile 单元可同时进行运算,因而每个芯片一个时钟周期就可完成
图 1- 3 RAW 处理器结构图[4]Fig.1-3 Structure of RAW processor1.2.2 多核处理器发展的关键问题多核处理器结构不仅有性能潜力大、集成度高、并行度高、结构简单和设计验证方便等诸多优势,而且它还能继承传统单处理器研究中的某些成果,例如同时多线程、宽发射指令、降压低功耗技术等。但多核处理器毕竟是一种新的结构,在多核结构设计和应用开发中出现了以前未曾遇到的新问题,这些问题给多核处理器的未来提出了挑战。目前在多核技术的发展过程中,以下几个问题值得我们着重考虑。1、内核类型的选择目前多核处理器的内核结构主要有同构和异构两种。同构结构采用对称设计,原理简单,硬件上较易实现。当前主流的双核和四核处理器基本上都采用同构结构。但是,通过增加 CPU 内核来提升处理器的性能,存在一定的极限。达到极限值之后,性能就无法再随着内核数量的增加而提升了。
【参考文献】
本文编号:2856844
【学位单位】:上海交通大学
【学位级别】:硕士
【学位年份】:2011
【中图分类】:TP332
【部分图文】:
上海交通大学硕士学位论文该处理器是由美国斯坦福大学在 1997 年设计研制的[2]。该处理器在一块芯片上集成了四个处理单元,每个均为 MIPS R10000 处理核。HYDRA 处理器核间采用私有一级 cache,共享二级 cache,使用两条总线实现处理器和内存的互连,同时写信号在写总线上广播,从而实现读写一致性。该处理器在处理具有高度并行性的应用程序时表现出了极好的性能。但是对于并行性一般的应用程序,性能随之下降。该处理器的具体结构见图 1-1。
图 1- 2 CELL 处理器结构图[3]Fig.1-2 Structure of CELL processor3、RAW 处理器美国马萨诸塞大学正在开发的 RAW 处理器[4]可以说是 Tile 结构的先驱,它克服了布线延迟,充分利用了 Tile 结构丰富的硬件资源和有限的管脚资源。RAW 处理器由 16 个结构相同的 Tile 单元构成,而每个 Tile 单元由近似 MIPS 处理器的单指令发射内部处理计算流水线和网络构成。每个 Tile 单元可作为具有独立程序计数器的处理器工作,当指令或数据缓存发生错误时,则从配置在芯片外的主存获取数据。Tile 单元间的通信必须借助寄存器,所有布线均设计成短于 Tile 单元单边的长度。因此,即使是根据应用的性能要求或可用晶体管数的提高,而增加集成的 Tile 单元数也不会降低芯片的工作频率。假使试制芯片经过每个 Tile 单元时产生 1 个周期的延迟,则右下 Tile 单元要使用左上 Tile 单元生成的数据,会产生6 个周期的通信延迟。Tile 单元中的运算流水线由 8 级流水线构成,每条运算流水线都采用单指令发射的简单结构。尽管一个 Tile 单元每个时钟周期只能处理一条指令,但 16 个 Tile 单元可同时进行运算,因而每个芯片一个时钟周期就可完成
图 1- 3 RAW 处理器结构图[4]Fig.1-3 Structure of RAW processor1.2.2 多核处理器发展的关键问题多核处理器结构不仅有性能潜力大、集成度高、并行度高、结构简单和设计验证方便等诸多优势,而且它还能继承传统单处理器研究中的某些成果,例如同时多线程、宽发射指令、降压低功耗技术等。但多核处理器毕竟是一种新的结构,在多核结构设计和应用开发中出现了以前未曾遇到的新问题,这些问题给多核处理器的未来提出了挑战。目前在多核技术的发展过程中,以下几个问题值得我们着重考虑。1、内核类型的选择目前多核处理器的内核结构主要有同构和异构两种。同构结构采用对称设计,原理简单,硬件上较易实现。当前主流的双核和四核处理器基本上都采用同构结构。但是,通过增加 CPU 内核来提升处理器的性能,存在一定的极限。达到极限值之后,性能就无法再随着内核数量的增加而提升了。
【参考文献】
相关期刊论文 前10条
1 王海;李秦伟;;H.264视频编码的研究[J];电脑知识与技术;2010年10期
2 李璐;汤跃科;陈杰;;基于Crossbar Switch结构的多层AMBA高速总线的设计及其应用[J];电子器件;2007年05期
3 钟升;;基于SIMD PE阵列的DCT数据并行实现方法研究[J];电子学报;2009年07期
4 张智澄;郭炜;祝永新;;一种改进的后处理去块滤波算法及其硬件实现[J];信息技术;2008年02期
5 张骏;樊晓桠;刘松鹤;;多核、多线程处理器的低功耗设计技术研究[J];计算机科学;2007年10期
6 郝松;都志辉;王曼;刘志强;;多核处理器降低功耗技术综述[J];计算机科学;2007年11期
7 孙利荣,蒋泽军,王丽芳;片上网络[J];计算机工程;2005年20期
8 史莉雯;樊晓桠;张盛兵;;单片多处理器的研究[J];计算机应用研究;2007年09期
9 林川;张晓潇;陈杰;韩亮;周朝显;李海军;;超长指令字DSP处理器的共享寄存器堆设计[J];科学技术与工程;2006年13期
10 邓崇亮;覃焕昌;;SoC片上五种总线标准的分析比较[J];百色学院学报;2008年03期
本文编号:2856844
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2856844.html