面向动作类游戏仿真的多层深度强化学习研究
发布时间:2021-12-09 08:12
游戏AI是人工智能和游戏领域结合的产物,是强化学习领域的重要实验载体。强化学习解决的是序贯决策问题,与游戏中的智能体决策不谋而合。在该领域,近年来也出现了许多令人瞩目的研究成果,从早期的DQN控制雅达利游戏得分接近人类水平,到AlphaGO击败世界顶级围棋选手,OpenAI Five在Dota2电子竞技上击败国际顶尖队伍,该领域越来越受到学术界的关注和重视。传统强化学习理论采用的是低维的输入,动作状态空间都比较小,但在面临复杂游戏环境时却遇到了越来越多的挑战,比如高维的状态动作空间、游戏反馈延迟且稀疏、多智能体系统下的环境不稳定问题等。本文以相对复杂的动作类多人足球游戏为实验载体,结合多智能体领域的沟通机制和强化学习分层思想,提出带沟通机制的分层多智能体强化学习方法。理论层面上,本文将行为主义和连接主义方法结合,探索了复杂环境下的多智能体集群智能问题。算法层面上,本文通过智能体独立的思想,以去中心化的训练方式,在高层的网络中增加通信沟通机制,推动智能体之间进行沟通分享信息,完善对环境、对其他智能体行为策略的感知,一定程度上解决了环境不稳定的问题,并促进了多智能体之间的协作对抗行为。本文...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
强化学习更新方法分类图
策略迭代示意图
重要性权重示意图
【参考文献】:
期刊论文
[1]分层强化学习综述[J]. 周文吉,俞扬. 智能系统学报. 2017(05)
[2]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进. 计算机学报. 2018(01)
[3]强化学习研究综述[J]. 陈学松,杨宜民. 计算机应用研究. 2010(08)
[4]关于学习本质的哲学探索[J]. 张晓荣. 兰州学刊. 2007(05)
[5]强化学习研究综述[J]. 高阳,陈世福,陆鑫. 自动化学报. 2004(01)
[6]强化学习理论、算法及应用[J]. 张汝波,顾国昌,刘照德,王醒策. 控制理论与应用. 2000(05)
本文编号:3530278
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
强化学习更新方法分类图
策略迭代示意图
重要性权重示意图
【参考文献】:
期刊论文
[1]分层强化学习综述[J]. 周文吉,俞扬. 智能系统学报. 2017(05)
[2]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进. 计算机学报. 2018(01)
[3]强化学习研究综述[J]. 陈学松,杨宜民. 计算机应用研究. 2010(08)
[4]关于学习本质的哲学探索[J]. 张晓荣. 兰州学刊. 2007(05)
[5]强化学习研究综述[J]. 高阳,陈世福,陆鑫. 自动化学报. 2004(01)
[6]强化学习理论、算法及应用[J]. 张汝波,顾国昌,刘照德,王醒策. 控制理论与应用. 2000(05)
本文编号:3530278
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3530278.html
最近更新
教材专著