基于相似性的粗粒度可重构指令压缩
发布时间:2021-02-24 18:12
粗粒度可重构架构在能效比方面具有明显优势,然而其指令存储与传输过程的功耗代价过高.实验发现指令间具有明显的相似性,由此本文提出一种基于指令相似性的压缩技术,通过对指令的压缩、传输与解压,可以在不降低性能的前提下,优化架构的功耗和面积.针对同构和异构平台分别提出了指令分发模型和指令寄存器模型的解决方案,结合编译策略优化,最终与两种传统结构相比,面积效率比分别提升36%和181%,功耗效率比分别提升33%和118%.
【文章来源】:微电子学与计算机. 2020,37(08)北大核心
【文章页数】:6 页
【部分图文】:
典型CGRA结构图
本文未压缩基础指令集如图2(a)所示.考虑到通用性和可扩展性的要求,基础指令长度固定为64位,共由以下几部分组成:5位的操作码字段,用来表示本条指令的具体操作类型;3个源操作数字段,每个字段7位,用来表示3个源操作数(其中3位表示输入来源:立即数、共享数据存储器、全局寄存器、本地数据寄存器、本地或其他相联处理单元的输出寄存器;4位表示具体地址索引);输出也用7位表示(3位表示输出去向:共享数据存储器、全局寄存器、本地数据寄存器或输出寄存器;4位表示输出的具体地址索引);28位的立即数/地址字段,用来表示操作数是立即数时的值或者load和store指令直接寻址时的地址.3.2 指令分割及压缩
(2)在处理单元映射过程中,可以在性能相同的几种配置方案中,选择改变字段数较少的结果.如图3所示将图3(b)所示算法,映射到图3(a)所示2×2 CGRA阵列上,成功映射方案中的两种如图3(c)和图3(d)所示.启动间隔表示多条指令循环执行时,一条指令在两次迭代间的间隔.作为性能衡量的指标,两种方案的启动间隔均为2,说明性能相同.如图4所示,两种方案改变字段已用虚线框标出.对于映射方案1,处理单元2除操作码字段(SOp)外,还需要传输2个字段(S0和S3);但对于映射方案2,除操作码字段外,每个处理单元最多只有一个字段发生改变,故方案2更优.针对不同的应用,映射算法大多具有明显的优化空间.图4 映射结果选择
【参考文献】:
期刊论文
[1]一种快速高效的粗粒度可重构架构编译框架[J]. 尹文志,赵仲元,毛志刚,王琴,绳伟光. 微电子学与计算机. 2019(08)
本文编号:3049758
【文章来源】:微电子学与计算机. 2020,37(08)北大核心
【文章页数】:6 页
【部分图文】:
典型CGRA结构图
本文未压缩基础指令集如图2(a)所示.考虑到通用性和可扩展性的要求,基础指令长度固定为64位,共由以下几部分组成:5位的操作码字段,用来表示本条指令的具体操作类型;3个源操作数字段,每个字段7位,用来表示3个源操作数(其中3位表示输入来源:立即数、共享数据存储器、全局寄存器、本地数据寄存器、本地或其他相联处理单元的输出寄存器;4位表示具体地址索引);输出也用7位表示(3位表示输出去向:共享数据存储器、全局寄存器、本地数据寄存器或输出寄存器;4位表示输出的具体地址索引);28位的立即数/地址字段,用来表示操作数是立即数时的值或者load和store指令直接寻址时的地址.3.2 指令分割及压缩
(2)在处理单元映射过程中,可以在性能相同的几种配置方案中,选择改变字段数较少的结果.如图3所示将图3(b)所示算法,映射到图3(a)所示2×2 CGRA阵列上,成功映射方案中的两种如图3(c)和图3(d)所示.启动间隔表示多条指令循环执行时,一条指令在两次迭代间的间隔.作为性能衡量的指标,两种方案的启动间隔均为2,说明性能相同.如图4所示,两种方案改变字段已用虚线框标出.对于映射方案1,处理单元2除操作码字段(SOp)外,还需要传输2个字段(S0和S3);但对于映射方案2,除操作码字段外,每个处理单元最多只有一个字段发生改变,故方案2更优.针对不同的应用,映射算法大多具有明显的优化空间.图4 映射结果选择
【参考文献】:
期刊论文
[1]一种快速高效的粗粒度可重构架构编译框架[J]. 尹文志,赵仲元,毛志刚,王琴,绳伟光. 微电子学与计算机. 2019(08)
本文编号:3049758
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3049758.html