基于深度强化学习的3D游戏的非完备信息机器博弈研究
发布时间:2020-03-31 05:58
【摘要】:人工智能提出至今,已经渗透到各个领域并日益发挥着其强大的作用,机器博弈被誉为其中最具挑战性的研究方向之一,也是验证人工智能理论与计算理论的试金石。机器博弈分为完备信息机器博弈与非完备信息机器博弈两大类。非完备信息机器博弈的特点是智能体在博弈过程中无法获得博弈过程的全部信息。非完备信息博弈指参与人对某些博弈信息不可知,相比于完备信息博弈,无疑增加了研究的复杂性。许多现实生活中的决策问题都可以抽象为非完备信息博弈问题,例如军事博弈、商业竞争、网络安全、金融调控等问题。因此,对非完备信息机器博弈领域内的相关问题进行研究具有重要的现实意义。解决非完备信息机器博弈问题的传统方法是将非完备信息机器博弈模型抽象为部分可观测马尔科夫决策模型,之后利用强化学习的相关算法加以处理。然而传统的强化学习在信息非完备以及高维的状态空间下无法收敛,仅通过有限的数据和反复测试无法遍历博弈过程中的所有状态。论文将深度学习与强化学习相结合,用深度学习网络替换强化学习中的状态-动作值函数,利用深度强化学习算法解决非完备信息机器博弈领域内的相关问题。传统强化学习算法需要人工提取特征,很难发现特征间的内在联系,同时训练时需要大量的领域知识,可扩展性差。深度强化学习算法直接使用原始的游戏画面作为输入,完成了端到端的训练,实现了智能体自我学习的过程。本文针对深度强化学习算法决策时无法解决长时间历史信息的问题,将深度强化学习算法与长短期记忆模型进行结合,引用了DRQN网络。同时针对传统深度强化学习算法中存在次优动作的Q值过估计问题,结合了双重Q学习算法,将原深度强化学习中Q值的估计过程进行了解耦,并将DRQN网络与双重Q学习进行结合,提出了DDQRN网络。又因改进后的DDQRN网络训练效率不高、收敛缓慢,为了加快网络的训练收敛速度,本文提出了基于优先级搜索的记忆回放结构。同时为了提高智能体的对战效率,对网络结构进行了细分,不同的神经网络负责不同的任务场景,最终对战网络由视觉神经网络、地图导航策略强化神经网络、对战策略强化神经网络所组成,在类似于现实生活的以第一人称为视角的三维对战射击博弈Vizdoom游戏中实现了高智力水平的强化学习智能体。与传统的强化学习算法相比,达到了更高的博弈水平。
【图文】:
Q学习算法在下面给出:强化学习中比较流行的一种偏离策略的学习方法就是Q学习 实际上Q学习是通过不断地学习训练最终收敛到了一个状态-动作矩阵,如下图2-3所示:图2-3 状态-动作值函数矩阵表中的每一项w值对应的就是智能体在当前状态下采取某个动作行为对应的状态动作 Q ( s , a )值,初始化时Q值矩阵初始化为随机值,之后通过不断的训练迭代,最终Q矩阵会收敛 当智能体实际运行时选择Q矩阵中当前状态下Q值最大的动作执行 算法 2-1 Q 学习算法初始化:所有状态 s ,,行为 a,和其所对应的 Q 值 Q ( s,a)循环:执行以下操作,直到ts 是终止状态(1)根据当前状态 ,选取处于当前状态下的最优动作策略ta
Belief Networks,DBNs[33]),如图2-4所示,其包含了许多个隐藏层的神经网络,其原理是将低层特征进行组合从而形成非常抽象的高层特征,以发掘数据特征更深层的内在联系,通过将多层非线性结构进行组合使其拥有了其他算法所不具有的非常强大的特征表达能力 深度学习拥有自动提取特征的能力,从而不需要人工进行复杂的特征提取过程,深度学习能够从训练数据中隐式地学习,能够刻画出人类专家都无法察觉的数据的内在信息 同时因为大数据时代的来临以及运算深度神经网络所需的硬件计算速度的改进使得深度学习越来越多的可以应用到实际生活中的不同的领域,如图像识别 语音识别翻译 自然语言处理等 深度学习最常用的经典模型有递归神经网络,自动编码器,卷积神经网络等 图2-4 深度学习网络卷积神经网络(CNN)[34]设计的初衷是为了解决图像识别的问题
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP18;TP317
本文编号:2608670
【图文】:
Q学习算法在下面给出:强化学习中比较流行的一种偏离策略的学习方法就是Q学习 实际上Q学习是通过不断地学习训练最终收敛到了一个状态-动作矩阵,如下图2-3所示:图2-3 状态-动作值函数矩阵表中的每一项w值对应的就是智能体在当前状态下采取某个动作行为对应的状态动作 Q ( s , a )值,初始化时Q值矩阵初始化为随机值,之后通过不断的训练迭代,最终Q矩阵会收敛 当智能体实际运行时选择Q矩阵中当前状态下Q值最大的动作执行 算法 2-1 Q 学习算法初始化:所有状态 s ,,行为 a,和其所对应的 Q 值 Q ( s,a)循环:执行以下操作,直到ts 是终止状态(1)根据当前状态 ,选取处于当前状态下的最优动作策略ta
Belief Networks,DBNs[33]),如图2-4所示,其包含了许多个隐藏层的神经网络,其原理是将低层特征进行组合从而形成非常抽象的高层特征,以发掘数据特征更深层的内在联系,通过将多层非线性结构进行组合使其拥有了其他算法所不具有的非常强大的特征表达能力 深度学习拥有自动提取特征的能力,从而不需要人工进行复杂的特征提取过程,深度学习能够从训练数据中隐式地学习,能够刻画出人类专家都无法察觉的数据的内在信息 同时因为大数据时代的来临以及运算深度神经网络所需的硬件计算速度的改进使得深度学习越来越多的可以应用到实际生活中的不同的领域,如图像识别 语音识别翻译 自然语言处理等 深度学习最常用的经典模型有递归神经网络,自动编码器,卷积神经网络等 图2-4 深度学习网络卷积神经网络(CNN)[34]设计的初衷是为了解决图像识别的问题
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP18;TP317
【参考文献】
相关期刊论文 前1条
1 郭茂祖,刘扬,黄梯云;加强学习主要算法的比较研究[J];计算机工程与应用;2001年21期
本文编号:2608670
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2608670.html