当前位置:主页 > 科技论文 > 自动化论文 >

基于A3C模型的带预判游戏智能体研究

发布时间:2021-04-13 06:24
  目前,常见的游戏内置机器人在进行对抗时都是根据事先编写好的脚本进行决策,采取行动,而且可以获取利用一些不平等信息,并不是像人类玩家一样只根据游戏画面(或者再结合声音)进行分析决策,灵活多变。本课题主要研究深度学习和强化学习在游戏智能体领域的应用,以及相关算法的改进,使游戏智能体的决策过程更像人类,并使其摆脱对不公平信息的依赖。首先,本文采用VizDoom作为游戏智能体的研究平台,该游戏是一款第一人称视角的射击游戏。根据A3C算法设计实现了一个游戏智能体(即卷积神经网络),该智能体以原始的实时游戏画面作为网络输入,输出为对应的离散动作(即决策)。智能体会和VizDoom进行交互,读取实时游戏画面,然后进行决策,控制游戏中的角色行动。其次,本文对A3C算法做了一个改进,在其原有的基础上加入了一个预判网络,预判网络的目的是使智能体可以像人类玩家一样,在进行决策前做出一个预判,然后将实时游戏画面和预判画面一起作为A3C算法的网络输入,进行决策,输出对应的离散动作。由于这个改动仅仅改变了A3C算法的网络输入的数据结构,因此是一个模型无关的方法,易于移植到其他算法上。最后,本文分析比较了A3C算法... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:65 页

【学位级别】:硕士

【部分图文】:

基于A3C模型的带预判游戏智能体研究


视频画面预测模型网络结构图

画面,研究平台,感知机,评估方法


图 2-15 VizDoom 真实游戏画面截图章小结章主要介绍了本研究课题相关的技术和平台,首先介绍了深度最基本的感知机切入,讲解了神经网络的本质及学习的原理。化学习的研究问题以及如何利用马尔科夫决策过程对其进行建然后讲解了图像预测的相关原理及其评估方法。最后简单介绍到的开发框架和研究平台。

交互图,交互图


图 3-1 Agent-Environment 交互图具体的讲,agent 和 environment 的交互发生在每个离散时间点 。在每个时间点 t,agent 接收到 environment 的当前状态St(前的画面),St S,其中 S 代表可能的状态集合,然后在此基动作t,t (St),其中 (St)表示在状态St下可选的动作集合nment 根据 agent 的动作发生改变,转移到新的状态 ,agent Rt R。了解了整个过程之后,那么 agent 的目标直观的讲就是决策后得到的累积奖励最大,如公式(3-1)所示:Gt= Rt Rt Rt RTGt 代表目标,T 代表结束时间点(如游戏结束)。接下来我们需( §),计算每个状态 s 映射到 a 的概率,agent 要学习的就是如何优的策略 使得Gt最大。上面对于Gt的定义是一种特殊情况,实考虑累积奖励(reward)的时候会在每一项上加上衰减因子γ,同时间点的奖惩对目标的影响大小,如公式(3-2)所示。Gt= t tRt Tt t式(3-2)中 。根据G的定义,那么给定状态 s 下它的期望

【参考文献】:
期刊论文
[1]基于深度学习的军事智能决策支持系统[J]. 张晓海,操新文.  指挥控制与仿真. 2018(02)
[2]基于深度学习的视频预测研究综述[J]. 莫凌飞,蒋红亮,李煊鹏.  智能系统学报. 2018(01)
[3]深度强化学习进展:从AlphaGo到AlphaGo Zero[J]. 唐振韬,邵坤,赵冬斌,朱圆恒.  控制理论与应用. 2017(12)
[4]基于深度Q值网络的自动小车控制方法[J]. 王立群,朱舜,韩笑,何军.  电子测量技术. 2017(11)
[5]基于深度增强学习的自动游戏方法[J]. 袁月,冯涛,阮青青,赵银明,邹健.  长江大学学报(自科版). 2017(21)
[6]深度学习的研究现状与发展[J]. 何晓萍,沈雅云.  现代情报. 2017(02)
[7]基于帧内帧间联合预测的深度视频编码方法[J]. 朱涛.  信息技术. 2016(10)
[8]Discrete-time dynamic graphical games:model-free reinforcement learning solution[J]. Mohammed I.ABOUHEAF,Frank L.LEWIS,Magdi S.MAHMOUD,Dariusz G.MIKULSKI.  Control Theory and Technology. 2015(01)
[9]多Agent系统中强化学习的研究现状和发展趋势[J]. 赵志宏,高阳,骆斌,陈世福.  计算机科学. 2004(03)

博士论文
[1]视频压缩中的高效帧内编码技术研究[D]. 张涛.哈尔滨工业大学 2017

硕士论文
[1]基于强化学习的开放领域聊天机器人对话生成算法[D]. 曹东岩.哈尔滨工业大学 2017
[2]基于强化学习的路径规划问题研究[D]. 赵英男.哈尔滨工业大学 2017



本文编号:3134793

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3134793.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户129b4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com