基于深度强化学习机制的棋盘类游戏算法的设计与实现
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
图2.2?A3C总体结构??所谓“异步”,是指该算法的交互过程与更新过程是多线程异步进行的
?第二章深度强化学习概述??训练效率。图2.2描述了?A3C算法的总体结构。??全局网络??动作|?价值??分布?估计??个?7j\??行动者?i?平论家??网络?网络?? ̄/K ̄? ̄7R ̄??菊入?输入??工人1?工人2?|?工人N??|行?|评?|行?|评?丨行?|评??动论....
图3.1多维循环神经网络结构图[Schaul,?etal.,?2008]??传统的循环神经网络的后一个循环单元仅接收前一个循环单元的输出作为??先验信息,而这一模式显然不能满足多维度的扫描空间的情况
,,.,,维循环神经网络,发展出了一套新的状态-动作函数评估器。多维循环祌经网络??的训练数据同样通过智能体自我对弈的方法实现。同时,文章创造性地利用了神??经演化算法,开创了将演化算法应用于强化学习领域的先河。??多维循环神经网络??循环神经网络己在诸如语音识别、语义分析、机器....
图3.3基本的蒙特卡洛树搜索流程[Abramson,?1987]??
?(|)????ai??图3.3基本的蒙特卡洛树搜索流程[Abramson,?1987]??一个基本的蒙特卡洛树搜索流程如图3.3所示,包含以下四个步骤:??选择(Selection):从根节点出发,向下选择访问具有最大Q值的子节点,直??到抵达叶节点或最深层数限制为止。值的定义....
图3.4祌经网络模型结构??
这里的神经网络总体上采用类似于谷歌公司在2015年发布的De印??Q-network的结构。不过,由于本棋盘类游戏环境的状态空间远远不及视频游戏,??因此也在一定程度上做出了适应性调整。如图3.4所示,神经网络输入层由3通??道的尺寸为size?x?size的棋局信息构成。接下来....
本文编号:3911297
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3911297.html