基于深度强化学习的非完备信息3D视频游戏博弈算法研究
发布时间:2021-12-30 14:31
人工智能研究正在世界各地如火如荼地进行着,而机器博弈自从计算机和博弈论诞生以来一直是人工智能研究的热门领域。近年来,AlphaGo围棋智能体的大获成功更是吸引了越来越多的研究人员投入到机器博弈的研究中来,值得关注的是该围棋智能体主要使用的深度学习和强化学习算法已经成为当下的人工智能浪潮中最具有代表性的技术。围棋智能体的成功代表着机器博弈领域中的完备信息博弈取得了历史性的突破,而有着更高复杂度、更贴近现实世界的非完备信息博弈依然有很多课题需要研究解决。另一方面,计算机游戏因其具有清晰的规则定义、丰富的场景和可重用性等特点,如今已成为人工智能尤其是机器博弈领域最重要的研究工具和测试平台。本文选取非完备信息3D视频游戏作为研究内容的载体,针对非完备信息博弈中状态维度和动作空间巨大的特点,利用深度神经网络表征强化学习中的价值函数和策略模型,直接使用原始的游戏画面作为神经网络的输入,有别于传统强化学习算法需要在使用相关领域知识的前提下,通过任务建模和人工抽取特征等求解策略的方式。从而解决了传统方法可扩展性差、求解效率低且无法收敛等问题。针对强化学习算法中原始策略梯度算法高方差的缺点,本文引入基线...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
DQN网络结构图
图 3-1 采样价值不稳定示意图解决累积奖励值不稳定的问题,需要考虑转向基于价值迭代的强在基于价值迭代的强化学习算法中,状态价值函数和状态-动作价要的两大定义。状态价值函数 V ( s) 含义是当智能体采取策略 时状态 s时能够获取的累积奖励值(直到结束状态),用来评估环境。状态-动作函数 Q ( s , a) 描述了当智能体处于状态 s并采取动作 获得的累积奖励值,能够一定程度上衡量动作的优劣。,可以发现状态-动作函数的定义和策略梯度中累计奖励值't'Tt t t 算过程是相同的,如公式(3-23)所示。所以就可以将策略梯度方法相结合。如果用状态价值函数替换累计奖励值,则基准 b 的计算价值函数。其中最重要的原因是累计价值的计算需要有正有负,数值恰好是状态-动作函数的期望值,这样一来,不同的动作的累有正有负,符合策略梯度的需求,这一过程如公式(3-24)所示。'Tt t n n n n
作用是估计演员策略的相应价值函数。常见的做法方法更新策略参数,同时评论家使用某种形式的时数。该算法通过融合策略梯度和价值迭代方法,相梯度方法的显著优势在于,评论家的存在减少了策略空间的搜索更加高效且健壮。价值模型融入策势函数、状态价值函数和 Q 值函数等,本文通过态价值函数的融合算法。公式(3-27)展示了本文优势函数的 AC 策略梯度算法。11 11( ) ( ( ) ( )) log ( )N Nn n n n nt t t t ti tJ r V s V s a sN + + 了 AC 算法的流程,首先可以选择一个初始的随过程中记录轨迹的信息。用这些收集到轨迹中包含信息来拟合状态价值函数。接下来利用状态价值函新的策略继续与环境进行交互。循环这个过程,
【参考文献】:
期刊论文
[1]机器博弈风险分析及其估算方法的研究[J]. 张加佳,王轩. 高技术通讯. 2013 (09)
[2]中国象棋计算机博弈开局库研究与设计[J]. 魏钦刚,王骄,徐心和,南晓斐. 智能系统学报. 2007(01)
[3]中国象棋计算机博弈关键技术分析[J]. 徐心和,王骄. 小型微型计算机系统. 2006(06)
本文编号:3558391
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
DQN网络结构图
图 3-1 采样价值不稳定示意图解决累积奖励值不稳定的问题,需要考虑转向基于价值迭代的强在基于价值迭代的强化学习算法中,状态价值函数和状态-动作价要的两大定义。状态价值函数 V ( s) 含义是当智能体采取策略 时状态 s时能够获取的累积奖励值(直到结束状态),用来评估环境。状态-动作函数 Q ( s , a) 描述了当智能体处于状态 s并采取动作 获得的累积奖励值,能够一定程度上衡量动作的优劣。,可以发现状态-动作函数的定义和策略梯度中累计奖励值't'Tt t t 算过程是相同的,如公式(3-23)所示。所以就可以将策略梯度方法相结合。如果用状态价值函数替换累计奖励值,则基准 b 的计算价值函数。其中最重要的原因是累计价值的计算需要有正有负,数值恰好是状态-动作函数的期望值,这样一来,不同的动作的累有正有负,符合策略梯度的需求,这一过程如公式(3-24)所示。'Tt t n n n n
作用是估计演员策略的相应价值函数。常见的做法方法更新策略参数,同时评论家使用某种形式的时数。该算法通过融合策略梯度和价值迭代方法,相梯度方法的显著优势在于,评论家的存在减少了策略空间的搜索更加高效且健壮。价值模型融入策势函数、状态价值函数和 Q 值函数等,本文通过态价值函数的融合算法。公式(3-27)展示了本文优势函数的 AC 策略梯度算法。11 11( ) ( ( ) ( )) log ( )N Nn n n n nt t t t ti tJ r V s V s a sN + + 了 AC 算法的流程,首先可以选择一个初始的随过程中记录轨迹的信息。用这些收集到轨迹中包含信息来拟合状态价值函数。接下来利用状态价值函新的策略继续与环境进行交互。循环这个过程,
【参考文献】:
期刊论文
[1]机器博弈风险分析及其估算方法的研究[J]. 张加佳,王轩. 高技术通讯. 2013 (09)
[2]中国象棋计算机博弈开局库研究与设计[J]. 魏钦刚,王骄,徐心和,南晓斐. 智能系统学报. 2007(01)
[3]中国象棋计算机博弈关键技术分析[J]. 徐心和,王骄. 小型微型计算机系统. 2006(06)
本文编号:3558391
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3558391.html