当前位置:主页 > 科技论文 > 自动化论文 >

深度强化学习在实时策略游戏中的应用研究

发布时间:2020-09-18 08:08
   近年来,深度学习不仅促进图像检测、语音识别和自然语言处理等领域的发展,而且使得强化学习领域的研究成果取得新突破。深度强化学习发展以后,在视频小游戏上取得超越人类水平的成绩,“围棋专家”阿尔法狗和阿尔法元也展示出超强的才能并战胜人类围棋专家。然而,深度强化学习在更加复杂的实时策略游戏应用中开始遭遇瓶颈,其面临的主要问题包含两个方面的内容,一方面,智能体自我行为决策中基于值函数迭代的深度强化学习算法中动作值函数不稳定,另一方面,多个智能体之间缺乏合作与竞争。根据以上两个方面的问题,本论文的主要工作分为以下两个部分。(1)提出了指数滑动平均化三重动作值网络算法。本论文对深度强化学习中动作值函数进行剖析,分析了深度动作值网络算法中动作值函数不稳定的特性,根据目前基于深度动作值网络算法进行改进的平均化动作值函数的算法进一步提出指数滑动平均化动作值网络算法。其次,重点分析了深度动作值网络算法与确定性策略梯度算法在深度确定性策略梯度算法中的主要作用,基于深度确定性策略梯度算法中提出了指数滑动平均化三重动作值网络算法,其核心是引入指数滑动平均化的动作值网络,改进了深度确定性策略梯度算法中策略更新时的梯度公式,增强了智能体行为策略的鲁棒性。(2)提出基于自注意力机制的动作值网络模型。在多智能体进行合作和竞争时,学会关注到更有价值的智能体的特性或游戏环境本身的状态,将有利于改善多智能体的行为策略,本论文通过对注意力机制在自然语言处理方面应用的理解与探讨,提出基于自注意力机制的动作值网络模型进而优化多个智能体的行为策略,使得多智能体都能表现出更好的行为策略。应用本论文提出的指数滑动平均化三重动作值网络算法,智能体在多个具有连续动作空间的深度强化学习环境中取得比原算法更高的收益。在既包含合作又包含竞争的游戏环境中,多智能体深度确定性策略梯度算法采用基于自注意力机制的动作值网络模型后也获得了更高的收益。此两种改进的算法应用不仅局限于在模拟环境或游戏中,也将有利于应用在现实生活场景中的深度强化学习智能体的行为策略得到改善,收益得到增加。
【学位单位】:北京交通大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP18
【部分图文】:

交互模型,多智能体


Figure邋2-1邋The邋classic邋module邋in邋deep邋reinforcement邋learning逡逑多智能体与环境进行交互的马尔科夫决策过程和单智能体与环境进行交互的逡逑马尔科夫过程极为相似,将图2-1所示的单个智能体更换为多个智能体,就是多智逡逑能体与环境进行交互的经典模型,其相关数学符号涉及的内容也大同小异。将多智逡逑能体经典交互模型中涉及到的相关量,在这里也应用符号表示,以方便其他章节对逡逑多智能体相关内容进行介绍时使用:W—一多智能体环境中智能体的数量;/一一逡逑第/个智能体,且p阂灰坏诟鲋悄芴宓亩骷希弧诲义系诟鲋悄芴宓墓鄄欤唬ュ巍冢鲋悄芴宀呗裕诲义希颍哄澹樱幔幔睿蓿螅б灰换肪匙刺坪唬纾樱徨濉耙灰换肪扯缘冢鲥义现悄芴宓幕乇êe义希玻不诨肪辰5纳疃惹炕板义系蔽颐侵酪桓雎矶品蚓霾吖讨兴脑榈乃心谌菔保耸辈诲义闲枰突肪辰换ノ颐蔷涂梢怨婊鲎詈玫牟呗裕ǔ>涂梢哉庋奈侍饩徒凶霾咤义下怨婊侍猓热纾疃搪肪段侍猓颐侵雷呙刻趼返乃写郏币仓姥″义希稿义

本文编号:2821396

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2821396.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a34ac***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com