高性能浮点乘法单元的设计
发布时间:2020-05-05 16:44
【摘要】: 高性能浮点乘法单元是现代数字信号处理器中的重要部件,是完成高性能实时数字信号处理和图像处理的关键所在,它的性能优劣直接影响到CPU的浮点处理能力。浮点乘法单元具有面积大、延迟长、结构复杂的特点。如何设计出高速、简单且结构规则的浮点乘法器成为广泛关注的问题。过去的十多年中,研究者扩展了Booth编码算法的空间,提高了乘法器的性能;改进了部分积压缩技术,使乘法器结构更加规则;以传输管逻辑、多路选择器和动态技术为基础的各种电路实现方法也持续刷新高性能乘法器的实现记录;与此同时,与物理实现紧密相关的乘法器拓扑结构的研究也硕果累累。但不断提高的高性能运算需求使得高性能乘法单元的设计和实现仍然是当前的热门话题。 本论文主要完成高性能浮点乘法器的设计与验证,是微电子中心高性能浮点处理单元(FPU, Float Point Uint)项目的重要组成部分,按照Top-down的现代IC设计方法,以实现64位双精度浮点数的乘法运算为主,兼容32位单精度浮点数。 文章首先讨论了IEEE-754中规定的浮点数格式以及基本操作,并对浮点乘法的几种算法进行分析,深入研究了Booth算法及其各种改进算法,对比后选择改进的Booth2算法用于乘法单元的设计。接着分析了乘法器的阵列选择,讨论乘法单元的两种典型阵列结构,研究用于部分积求和的各种加法器,选取Wallace树型结构作为压缩阵列,混合加法器进行最终的部分积求和运算。为了提高性能,课题引入流水线技术,对浮点乘法单元整体采用五级流水线结构进行控制,在全流水状态下基本上等效于一个周期完成一次乘法操作,真正实现高性能的乘法器。 设计完成后通过搭建验证平台,通过模拟仿真的方法,用大量激励向量对浮点乘法单元的功能进行验证,并采取特殊激励和随机激励相结合的方式,以提高验证的覆盖率。为了检测时序要求,采用中芯国际SMIC的0.18μm CMOS工艺对其进行了逻辑综合,保证浮点乘法单元的延时要求,时钟频率预期达到500MHz。
【图文】:
个时钟周期部分和与乘数向右移一位,与被与上一次得到的部分和相加。这种结构中乘。由于这种结构每次只能产生和累加一个部作数的个数,所以使用这种结构得到部分积法需要 n 个时钟周期。不过由于实现起来简,比较容易得到较高频率。同时,该方法需的乘法需要 n 个加法器和 2n 个寄存器,所很多。但是如果乘法器是作为系统的一个部信号,那么乘法器的频率就要受制于系统的这个优点,,而高的时钟频率就没法表现出来需要减少一次乘法所需要的周期数。最直接部分积产生电路和加法器,在一个时钟周期把这些部分积串行的和以前周期累加的结果要更多的硬件资源,也会在一个周期内产生积生成电路的个数,使得乘法器的频率和整不降低系统频率的前提下,提高乘法器的性
2 译码得到的部分积可以很容易实现。同时,采用 Booth2 译码分积的个数大约为(N+1)/2,减少了近一半的部分积,这样就法器的运算速度。而,这种译码方式也有一些不足之处。首先译码部分需要大量积的选择逻辑也比较复杂。通过减少部分积的数量节约下来的势也许会被产生部分积的电路带来的延迟和面积所抵消,特别少的乘法器更是如此。所以,Booth2 算法适合对位数较宽的于基于 Booth2 译码的补码形式的部分积产生阵列如图2-4所示形式,为了保证最高位产生的部分积为正或负,就必须在每个添加一串 1 或 0(部分积前添位多少不一致,要使得各个部分),否则还需要求补运算进行修正。图中可以得到以下结论:首先,符号扩展位增加了扇出,影响度,运算位数越大,这种影响越明显;其次,完成符号扩展位加额外的加法电路,增加了电路的面积与功耗。这样,就需要进一步处理,减少扩展位的位数。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP368.1
本文编号:2650458
【图文】:
个时钟周期部分和与乘数向右移一位,与被与上一次得到的部分和相加。这种结构中乘。由于这种结构每次只能产生和累加一个部作数的个数,所以使用这种结构得到部分积法需要 n 个时钟周期。不过由于实现起来简,比较容易得到较高频率。同时,该方法需的乘法需要 n 个加法器和 2n 个寄存器,所很多。但是如果乘法器是作为系统的一个部信号,那么乘法器的频率就要受制于系统的这个优点,,而高的时钟频率就没法表现出来需要减少一次乘法所需要的周期数。最直接部分积产生电路和加法器,在一个时钟周期把这些部分积串行的和以前周期累加的结果要更多的硬件资源,也会在一个周期内产生积生成电路的个数,使得乘法器的频率和整不降低系统频率的前提下,提高乘法器的性
2 译码得到的部分积可以很容易实现。同时,采用 Booth2 译码分积的个数大约为(N+1)/2,减少了近一半的部分积,这样就法器的运算速度。而,这种译码方式也有一些不足之处。首先译码部分需要大量积的选择逻辑也比较复杂。通过减少部分积的数量节约下来的势也许会被产生部分积的电路带来的延迟和面积所抵消,特别少的乘法器更是如此。所以,Booth2 算法适合对位数较宽的于基于 Booth2 译码的补码形式的部分积产生阵列如图2-4所示形式,为了保证最高位产生的部分积为正或负,就必须在每个添加一串 1 或 0(部分积前添位多少不一致,要使得各个部分),否则还需要求补运算进行修正。图中可以得到以下结论:首先,符号扩展位增加了扇出,影响度,运算位数越大,这种影响越明显;其次,完成符号扩展位加额外的加法电路,增加了电路的面积与功耗。这样,就需要进一步处理,减少扩展位的位数。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP368.1
【引证文献】
相关期刊论文 前1条
1 管幸福;余宁梅;路伟;;一种wallace树压缩器硬件结构的实现[J];计算机工程与应用;2011年23期
本文编号:2650458
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2650458.html