面向强化学习的FPGA硬件加速平台的研究
发布时间:2020-07-04 03:59
【摘要】:近几年来人工智能领域不断发展,其中深度强化学习作为其核心算法,它将具有感知能力的深度学习技术和具有决策能力的强化学习技术相结合,已经广泛地应用于工业制造、机器人控制、仿真模拟、游戏博弈等领域。深度强化学习属于计算密集型算法,目前主流的训练深度强化学习的硬件框架为CPU+GPU,但是GPU的高功耗使得难以在移动设备中部署。FPGA是一种可编程逻辑器件,具有低功耗、可配置、计算资源丰富等特点,适合用于作为深度强化学习中的计算设备。DQN算法是深度强化学习中的一个重要算法,它使用神经网络感知环境产生动作的Q值,并且使用了经验池和目标网络的方法来稳定训练。在此背景下,本课题使用CPU+FPGA的硬件框架,实现了DQN算法的训练。本课题使用PYNQ平台,该平台基于CPU+FPGA硬件框架,使用Python语言库对可编程逻辑进行调用,适合实现深度强化学习算法的训练。在此基础上,本课题对其中的DQN算法进行细致分析,针对其用到的经验池以及目标网络方法,使用Vivado HLS工具分别设计出动作网络、评估网络、目标网络三个IP模块用于加速计算,并将其集成到整个系统的硬件通路中。最后在Jupyter Notebook开发环境下使用Python语言调用各个硬件模块实现DQN算法的训练过程。实验结果显示,在PYNQ平台下实现的DQN算法能够成功完成倒立摆任务,在约300幕任务后就能够逼近最高回报值,该实现的预估功耗仅为1.74W,对比同一算法在CPU和GPU上的实现结果,其能量效率分别为CPU的70.5倍和GPU的4.3倍,验证了本课题设想的深度强化学习低功耗、高效率实现方案的可行性。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN791;TP181
【图文】:
三层MLP结构
三种激活函数输出曲线图
本文编号:2740602
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN791;TP181
【图文】:
三层MLP结构
三种激活函数输出曲线图
【参考文献】
相关期刊论文 前2条
1 傅启明;刘全;王辉;肖飞;于俊;李娇;;一种基于线性函数逼近的离策略Q(λ)算法[J];计算机学报;2014年03期
2 高阳;周如益;王皓;曹志新;;平均奖赏强化学习算法研究[J];计算机学报;2007年08期
相关硕士学位论文 前2条
1 余奇;基于FPGA的深度学习加速器设计与实现[D];中国科学技术大学;2016年
2 肖潇;基于AXI的SoC互联结构的设计与验证[D];国防科学技术大学;2015年
本文编号:2740602
本文链接:https://www.wllwen.com/kejilunwen/dianzigongchenglunwen/2740602.html