可编程自重构光照渲染加速器的研究与设计

发布时间:2021-08-11 10:09
  渲染一直都是计算机图形学的核心课题之一,是从三维场景中合成二维图像的过程;光照渲染是图形处理器(Graphic Processing Unit,GPU)不可或缺的关键环节,为了获得较高的真实感,光照的研究一直被开发人员和研究人员所重视。目前大多数图形处理器不能根据当前场景的实际需求实现不同算法的灵活调度与重构,无法发挥最优性能。而可重构计算兼具通用处理器的灵活性和专用处理器的高效性以及天然具有的高可靠性、低能耗、低成本等特点,与算法可切换的需求一致。根据这一思路,论文设计了一种可编程自重构光照渲染加速器,能够实现算法之间的自主切换,高效完成图形渲染的光照处理。首先,本文详细分析了现有GPU的渲染架构中光照渲染处理器只能处理一种或一类算法,无法实现算法的自主切换。再分析了可编程可重构体系结构高能效、低能耗的优势,为了在光照渲染处理器中结合可编程可重构的优势,实现光照算法的自主切换,提出了可编程自重构光照渲染加速器的设计,并详细介绍该结构的实现方案。其次,对可编程自重构光照渲染加速器设计进行实现,主要包括:1)通过测试环境配置和性能指标定义对四种典型光照算法的性能进行特性化分析,完成性能模... 

【文章来源】:西安邮电大学陕西省

【文章页数】:86 页

【学位级别】:硕士

【部分图文】:

可编程自重构光照渲染加速器的研究与设计


Bifrost架构框图

框图,架构,框图,处理器


第1章绪论3动程序交互的任务管理器、一个负责处理内存页表的MMU以及一个生成tile链表的Tiler[13]。在Bifrost架构中统一着色器核被设计成quad-basedarithmeticunits,由三个执行引擎和一个管理单元构成,可以并行执行四标量的计算,设计单元更孝更高效,一个指令字包含两个指令,并且在该架构中设计了新的数据流,减少了系统的内存带宽和占用空间。基于该架构的Mali-G71配置更加灵活,性能更高,同样在API规范的支持上,可支持OpenGLES3.2、Vulkan1.0、OpenCL2.0、DX11、FL11_2和RenderScriptAPI接口。图1.1Bifrost架构框图NVIDIA推出的Kepler架构[14]采用1536个CUDA核心的统一渲染架构,如图1.2所示,运算能力达到3090GFLOPS,在NVIDIAGPUGeForceGTX680中进行使用,Kepler架构设计了一种流式多处理器结构(StreamingMultiprocessorArchitecture,SMX),每个流式多处理器结构中具有192个CUDA内核,并且每个内核具有完整的流水线浮点和整数算术逻辑单元,精度更高,可用于双精度计算。在Kepler架构中包含15个流式多处理器和6个64位的存储控制器,同样流式多处理器也是是可拓展,并且提供附加的缓存功能,在层次结构的每一级上都具有更大的带宽,整个设计中的硬件也支持新的可编程模式。尽管架构一直在改变,性能也在提高,但同一时刻只能在流水线中处理一种或一类算法,无法对算法进行切换。图1.2Kepler架构框图

静态配置,动态调度


西安邮电大学硕士学位论文41.2.2可编程可重构体系结构随着通用处理器功耗墙的出现,芯片制造成本急剧上升,可重构由于硬件的高能效、低能耗和软件的灵活性吸引学术界和工业界的更多关注[15],并且可重构计算可以突破冯诺依曼体系结构的局限性,采用时空多维计算方法,将标准化与定制化、计算效率与可编程灵活性相结合,将是未来计算机架构的发展方向[16][17],相比于传统指令流驱动和数据流驱动的计算技术,CGRA[18][19]是一种特殊的体系结构,可以在运行时通过配置上下文动态的部分重新配置。文献[20]设计了一种静态配置、动态调度的粗粒度可重构结构,用来解决静态配置、静态调度的低效率问题,如图1.3所示的可重构结构,由一个4×4处理元(Processingelement,PE)阵列、一个数据存储器和一个指令存储器组成。图1.3静态配置、动态调度的可重构结构PE通过路由器网络与环面拓扑连接,在PE内部,每个PE都连接一个路由器,此外每个PE还有缓冲区和ALU,缓冲区可以缓存从先前PE路由的输入操作数,更新使用输入操作数的操作的属性,并根据其状态将操作发送给ALU。在缓冲区向ALU发出操作后,操作数将立即以最小的延迟通过路由器网络发送到其目标PE。因此,从操作数的产生到使用,共有三个步骤,可以以流水线方式工作提高硬件的吞吐量。在缓冲区内部,有一个状态表,该表负责记录操作的属性。这些属性包括:(1)ready标签,用于记录是否准备好发出操作数;(2)如果输入的操作数可用,则记录1个avai标签和2个avai标签;(3)记录操作级别编号的标签;(4)rterid标签,记录操作的迭代次数。此外,状态表还缓存输入操作数的数据,缓冲区还包含一个仲裁器,该仲裁器从所有就绪操作中选择一个操作,并将其发送给ALU。

【参考文献】:
期刊论文
[1]HRM: H-tree based reconfiguration mechanism in reconfigurable homogeneous PE array[J]. Junyong Deng,Lin Jiang,Yun Zhu,Xiaoyan Xie,Xinchuang Liu,Feilong He,Shuang Song,L.K.John.  Journal of Semiconductors. 2020(02)
[2]Design of a unified rendering shader for mobile device[J]. Jiang Lin,Tian Rujia,Yang Bowen,Tian Pu.  The Journal of China Universities of Posts and Telecommunications. 2019(03)
[3]面向OpenGL的图形加速器设计与实现[J]. 邓军勇,李涛,蒋林,韩俊刚,沈绪榜.  西安电子科技大学学报. 2015(06)
[4]可重构计算处理器技术[J]. 魏少军,刘雷波,尹首一.  中国科学:信息科学. 2012(12)



本文编号:3335969

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3335969.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0d8a0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com