采用Wallace树优化的分像素运动估计插值滤波算法
发布时间:2021-02-12 19:48
提出一种基于Wallace树优化的HEVC/H.265分像素插值滤波算法的实现方案.模块采用按行流水插值架构,通过Wallace树压缩器对插值过程中的各项进行压缩,仅在最终输出结果时使用加法器.该算法不仅减少了硬件面积,而且提高了模块可工作的最高频率.将所提算法在硬件上进行验证,硬件设计以Verilog HDL语言描述,以8 px×8 px大小PU为最小插值单元,使用Modelsim进行功能仿真验证,在Synopsys Design Compiler中以SAED(Synopsys Armenia education department) 32 nm标准单元库进行综合,模块可达到的最高工作频率为636.9 MHz,逻辑门数为32 960,吞吐率为11.3 px/时钟周期.
【文章来源】:福州大学学报(自然科学版). 2020,48(02)北大核心
【文章页数】:6 页
【部分图文】:
图1 分像素搜索
以行输入一次可以插值8个像素的分像素插值滤波处理器如图2所示. 将分像素插值过程分解为水平方向插值和竖直方向插值, 实现的滤波模块由8个8抽头的水平方向滤波器hf0~hf7、 8个8抽头的竖直方向滤波器vf0~vf7组成, 中间用了8 ×8个寄存器作缓冲. 为插值8 px × 8 px PU, 需要在左边和上边多读入3个参考像素, 右边和下边多读入4个参考像素, 即共读入15×15个参考像素. 这些参考像素将在每个时钟周期以行为单位输入分像素插值滤波处理器. 其中水平滤波器hf0将读入Y0~Y7共8个参考像素, hf1读入Y1~Y8, …, hf7读入Y7~Y14. 在读入对应的参考像素后水平滤波器将通过选择器选择某1个分像素位置块进行滤波, 分像素位置的控制信息来自于上层模块. 每个时钟周期所有水平滤波器共产生8×1个分像素并存入中间的寄存器组, 寄存器组整体向下移一个单元. 8个时钟周期后所有寄存器都被填满, 竖直滤波器读入寄存器中的分像素并开始工作. 竖直滤波器计算过程需2个时钟周期, 流水操作除第1个时钟周期外, 每列每1个时钟都可以完成1组数据计算. 在竖直分像素计算的同时, 水平分像素依旧每个时钟周期更新一行. 在输出最终结果前, 水平分像素和竖直分像素会通过选择器进行筛选, 插值过程结束将得到8×8的分像素. 因此, 本方案有9个时钟周期处于等待状态. 在此之后, 如果参考像素持续不断地输入, 每17个时钟周期将计算192个分像素, 吞吐率可以达到11.3 px/时钟周期.2 基于Wallace树压缩算法的分像素插值单元
3-2压缩器
【参考文献】:
期刊论文
[1]一种高压缩Wallace树的快速乘法器设计[J]. 朱鑫标,施隆照. 微电子学与计算机. 2013(02)
[2]一种wallace树压缩器硬件结构的实现[J]. 管幸福,余宁梅,路伟. 计算机工程与应用. 2011(23)
[3]32×32高速乘法器的设计与实现[J]. 李军强,李东生,李奕磊,周志增. 微电子学与计算机. 2009(12)
本文编号:3031348
【文章来源】:福州大学学报(自然科学版). 2020,48(02)北大核心
【文章页数】:6 页
【部分图文】:
图1 分像素搜索
以行输入一次可以插值8个像素的分像素插值滤波处理器如图2所示. 将分像素插值过程分解为水平方向插值和竖直方向插值, 实现的滤波模块由8个8抽头的水平方向滤波器hf0~hf7、 8个8抽头的竖直方向滤波器vf0~vf7组成, 中间用了8 ×8个寄存器作缓冲. 为插值8 px × 8 px PU, 需要在左边和上边多读入3个参考像素, 右边和下边多读入4个参考像素, 即共读入15×15个参考像素. 这些参考像素将在每个时钟周期以行为单位输入分像素插值滤波处理器. 其中水平滤波器hf0将读入Y0~Y7共8个参考像素, hf1读入Y1~Y8, …, hf7读入Y7~Y14. 在读入对应的参考像素后水平滤波器将通过选择器选择某1个分像素位置块进行滤波, 分像素位置的控制信息来自于上层模块. 每个时钟周期所有水平滤波器共产生8×1个分像素并存入中间的寄存器组, 寄存器组整体向下移一个单元. 8个时钟周期后所有寄存器都被填满, 竖直滤波器读入寄存器中的分像素并开始工作. 竖直滤波器计算过程需2个时钟周期, 流水操作除第1个时钟周期外, 每列每1个时钟都可以完成1组数据计算. 在竖直分像素计算的同时, 水平分像素依旧每个时钟周期更新一行. 在输出最终结果前, 水平分像素和竖直分像素会通过选择器进行筛选, 插值过程结束将得到8×8的分像素. 因此, 本方案有9个时钟周期处于等待状态. 在此之后, 如果参考像素持续不断地输入, 每17个时钟周期将计算192个分像素, 吞吐率可以达到11.3 px/时钟周期.2 基于Wallace树压缩算法的分像素插值单元
3-2压缩器
【参考文献】:
期刊论文
[1]一种高压缩Wallace树的快速乘法器设计[J]. 朱鑫标,施隆照. 微电子学与计算机. 2013(02)
[2]一种wallace树压缩器硬件结构的实现[J]. 管幸福,余宁梅,路伟. 计算机工程与应用. 2011(23)
[3]32×32高速乘法器的设计与实现[J]. 李军强,李东生,李奕磊,周志增. 微电子学与计算机. 2009(12)
本文编号:3031348
本文链接:https://www.wllwen.com/kejilunwen/wltx/3031348.html