高性能混合计算协处理器计算内核的研究与实现
发布时间:2019-10-11 18:05
【摘要】:主处理器加协处理器方式组成的混合计算平台逐渐成为高性能和高效能计算的发展趋势。在典型的混合计算平台中,协处理器承担了主要计算加速任务。协处理器一般采用多核架构,内部按一定方式集成多个计算内核。 本文介绍了混合计算系统及其协处理器ESCA芯片的体系结构和工作流程,在此基础上提出了适合ESCA芯片的计算内核体系结构和计算内核指令集。计算内核包括控制逻辑,存储单元和运算单元。对控制逻辑,研究了其指令译码和任务调度方式,以及向量模式、条件执行、精确中断等关键技术。对存储单元,设计了一个4读4写,支持容量扩展的4KB分体寄存器文件,重点研究了其中的读冲突仲裁机制。对运算单元,通过硬件共享的方式设计了一套支持子字并行的高性能运算单元,包括整型逻辑算术运算单元,整型乘累加单元,浮点融合乘累加单元等。运算单元支持丰富的运算类型,满足指令集的设计要求。 本文最后对计算内核进行了功能验证,硬件评估和性能评估。分层次的验证策略保证了计算内核功能的正确性。在UMC0.18μm CMOS工艺下综合,控制逻辑,存储单元和运算单元分别占据计算内核14%,30%,56%的面积,表明计算内核具有控制简单,计算资源丰富的特点,适合多核集成。而对运算单元的评测结果显示计算内核以较小的额外硬件开销获得较大性能以及计算精确度的提升。
【图文】:
图 1-1 混合计算平台发展趋势 混合计算协处理器及计算内核Roadrunner 的理论峰值性能为 1.38 Petaflop/s(双精度),其中约 95%的性owerXCell 8i 处理器[3]。也就是说性能贡献主要来自于混合计算平台中的PowerXCell 8i 采用多核异构体系结构。处理器内部由多个不同配置的处理包括一个 PPE(Power Processing Element)内核和 8 个相同的 SPE(Synessing Elements)。其中 PPE 是一个基于 Power 架构的两路多线程内核,作的控制器,PPE 与其他 64-bit Power 架构处理器类似,用于运行常规操作是一个 SIMD (Single Instruction Multiple Data) RISC(Reduced Instrucputing)体系结构处理器,完成大部分的计算任务。GRAPE-DR 芯片[10]则将 SIMD 体系结构发挥到了极致。每个 GRAPE-DR 512 个简化设计的计算内核(Processing Element)。PE 被分为 16 个广播
图 2-5 计算任务通路核指令集系结构位于计算机软件和硬件的交界面,是计算机体系结构指令集体系结构和计算机系统的关系示意图如图 2-6 所示[27设定对程序的编写和执行具有指导意义,良好的指令集设定杂度,,还能够大幅度的提升目标程序的性能;从硬件角度,件设计的规模和复杂度,指令集中定义的操作类型直接决定令的编码方式也会对硬件执行效率产生影响。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP332
本文编号:2547607
【图文】:
图 1-1 混合计算平台发展趋势 混合计算协处理器及计算内核Roadrunner 的理论峰值性能为 1.38 Petaflop/s(双精度),其中约 95%的性owerXCell 8i 处理器[3]。也就是说性能贡献主要来自于混合计算平台中的PowerXCell 8i 采用多核异构体系结构。处理器内部由多个不同配置的处理包括一个 PPE(Power Processing Element)内核和 8 个相同的 SPE(Synessing Elements)。其中 PPE 是一个基于 Power 架构的两路多线程内核,作的控制器,PPE 与其他 64-bit Power 架构处理器类似,用于运行常规操作是一个 SIMD (Single Instruction Multiple Data) RISC(Reduced Instrucputing)体系结构处理器,完成大部分的计算任务。GRAPE-DR 芯片[10]则将 SIMD 体系结构发挥到了极致。每个 GRAPE-DR 512 个简化设计的计算内核(Processing Element)。PE 被分为 16 个广播
图 2-5 计算任务通路核指令集系结构位于计算机软件和硬件的交界面,是计算机体系结构指令集体系结构和计算机系统的关系示意图如图 2-6 所示[27设定对程序的编写和执行具有指导意义,良好的指令集设定杂度,,还能够大幅度的提升目标程序的性能;从硬件角度,件设计的规模和复杂度,指令集中定义的操作类型直接决定令的编码方式也会对硬件执行效率产生影响。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP332
【参考文献】
相关期刊论文 前2条
1 马胜;黄立波;王志英;刘聪;戴葵;;子字并行加法器的研究与实现[J];计算机工程与应用;2009年36期
2 饶金理;吴丹;陈攀;董冕;邓承诺;戴葵;邹雪城;;基于ESCA系统的层次化显式访存机制研究[J];计算机工程;2011年22期
相关博士学位论文 前1条
1 刘华平;高性能浮点除法及基本函数功能部件的研究[D];中国科学院研究生院(计算技术研究所);2003年
相关硕士学位论文 前1条
1 王文广;双精度64位浮点除法运算单元的设计与实现[D];中南大学;2007年
本文编号:2547607
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2547607.html