面向流应用的运算群的结构与实现
发布时间:2020-12-30 21:10
本文研究基于流应用的运算群的组织和实现,以满足媒体应用对数据处理能力的需求。运算群规模大、逻辑结构复杂,其对流处理器性能提高和功耗降低至关重要。本文选取流体系结构作为目标,设计了以SIMD方式执行相同指令的运算群。在编译时,核心级指令被调度并且生成VLIW指令,微控将其广播到4个运算群进行运算。数据流通过SRF加载,每个运算群处理流的一个记录。需要与其它运算群通信时通过COMM连接专门的群通信总线。X流处理器运算群的设计主要包括功能组织、逻辑设计及模拟验证。本文详细论述了运算群各功能单元的具体设计。首先阐述了运算群的几种基于流结构的实现方式。运算群可以通过有效的通讯调度,提高资源利用率。运算群中JB/VAL、SP、COMM单元作为其条件执行机制,共同协作处理条件流。浮点运算单元则是各种处理器中决定性能的重要单元。X流处理器的运算群结构采用RTL级Verilog语言描述,并在ModelSim SE 5.7d和nc_verilog上对其完成了模块级、流水线级和系统级的测试,保证了设计的正确性和指令的齐备性。初步设计完成以后,针对现有流体系结构的特点和不足,提出了一些改进方案。运算群(clu...
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
深度提取的流处理过程
国防科学技术大学研究生院学位论文的结构。从编译的角度来看,该方式对控制流的限制局域性和并行性更强,适合高吞吐率的密集计算,同。核心级程序大多都是循环操作:对输入流的每个元设定的循环次数或循环条件来控制循环。Kernel 中不器在 SIMD 模型上增加了条件流机制,解决这一问题[11译,分别对应流调度和核心调度。流调度负责转换 s配 SRF 空间、处理长流、解决操作间的相关性、以及一个 VLIW 编译器,负责处理运算群内功能单元的分,优化核心执行,最终生成优化的微代码[10]。该微代,存在 SRF 中。直到需要时才被加载到微控的微代码
统:用于从片外存储器加载或存储流,由 MAR 寄存器文件和两个存储控制器组成(每个 MAR 包含存储器的开始地址和DRAM 和 SRF 之间的流传输。带四个独立的 32 位宽的 SDR流内存访问。Imagine 的寻址模式支持顺序的、固定块、索引是以流记录为单位。文件(Stream Register File-SRF): SRF 是 128kB 的单端口存储执行核心级程序需要的输入流和核心级程序运算结束后以根据应用需求扩展。所有对SRF的访问需通过22个64字流块所需带宽的不同,分配给各模块(运算群、网络接口、片外存器)不同数目的流缓冲,从而巧妙地将单物理端口的 SRF 时间辑端口,与构造提供同样带宽的大型多端口 SRAM 的结构相比迟上都更有效。流缓冲还可以通过数据预取有效的隐藏数据访RF 阵列为 32 字宽,每两个时钟周期允许填充或排空一个流以低速带宽度读取数据时,流缓冲可利用流的顺序访问模式从
【参考文献】:
期刊论文
[1]流体系结构抽象模型研究[J]. 文梅,李海燕,伍楠,张春元,李礼. 计算机工程与科学. 2006(07)
[2]IEEE754标准浮点测试向量的生成[J]. 何立强. 计算机工程. 2004(19)
[3]基于模拟的验证技术在CPU设计中的应用[J]. 吕涛,李华伟,李晓维,樊建平. 同济大学学报(自然科学版). 2002(10)
[4]片上系统芯片设计与静态时序分析[J]. 来金梅. 半导体技术. 1999(06)
[5]专用集成电路的设计验证方法及一种实际的通用微处理器设计的多级验证体系[J]. 杨文华,罗晓沛. 计算机研究与发展. 1999(06)
硕士论文
[1]流处理器MASA内核的研究及实现[D]. 伍楠.国防科学技术大学 2005
本文编号:2948306
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
深度提取的流处理过程
国防科学技术大学研究生院学位论文的结构。从编译的角度来看,该方式对控制流的限制局域性和并行性更强,适合高吞吐率的密集计算,同。核心级程序大多都是循环操作:对输入流的每个元设定的循环次数或循环条件来控制循环。Kernel 中不器在 SIMD 模型上增加了条件流机制,解决这一问题[11译,分别对应流调度和核心调度。流调度负责转换 s配 SRF 空间、处理长流、解决操作间的相关性、以及一个 VLIW 编译器,负责处理运算群内功能单元的分,优化核心执行,最终生成优化的微代码[10]。该微代,存在 SRF 中。直到需要时才被加载到微控的微代码
统:用于从片外存储器加载或存储流,由 MAR 寄存器文件和两个存储控制器组成(每个 MAR 包含存储器的开始地址和DRAM 和 SRF 之间的流传输。带四个独立的 32 位宽的 SDR流内存访问。Imagine 的寻址模式支持顺序的、固定块、索引是以流记录为单位。文件(Stream Register File-SRF): SRF 是 128kB 的单端口存储执行核心级程序需要的输入流和核心级程序运算结束后以根据应用需求扩展。所有对SRF的访问需通过22个64字流块所需带宽的不同,分配给各模块(运算群、网络接口、片外存器)不同数目的流缓冲,从而巧妙地将单物理端口的 SRF 时间辑端口,与构造提供同样带宽的大型多端口 SRAM 的结构相比迟上都更有效。流缓冲还可以通过数据预取有效的隐藏数据访RF 阵列为 32 字宽,每两个时钟周期允许填充或排空一个流以低速带宽度读取数据时,流缓冲可利用流的顺序访问模式从
【参考文献】:
期刊论文
[1]流体系结构抽象模型研究[J]. 文梅,李海燕,伍楠,张春元,李礼. 计算机工程与科学. 2006(07)
[2]IEEE754标准浮点测试向量的生成[J]. 何立强. 计算机工程. 2004(19)
[3]基于模拟的验证技术在CPU设计中的应用[J]. 吕涛,李华伟,李晓维,樊建平. 同济大学学报(自然科学版). 2002(10)
[4]片上系统芯片设计与静态时序分析[J]. 来金梅. 半导体技术. 1999(06)
[5]专用集成电路的设计验证方法及一种实际的通用微处理器设计的多级验证体系[J]. 杨文华,罗晓沛. 计算机研究与发展. 1999(06)
硕士论文
[1]流处理器MASA内核的研究及实现[D]. 伍楠.国防科学技术大学 2005
本文编号:2948306
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2948306.html