融合深度学习与搜索的实时策略游戏微操方法
发布时间:2022-08-11 14:49
实时策略游戏的微操是指操纵多个作战单元以赢得胜利,针对传统搜索方法在面对大规模战斗场景时存在的搜索效率低下、搜索空间有限等问题,提出深度学习与在线搜索相结合的方法,以实现学习模型对搜索过程的引导。给出一种基于编码-解码卷积架构的联合策略网络,将其嵌入到PGS、POE和SSS+3种经典搜索方法中,实现多智能体联合动作的端到端学习。实验结果表明,该方法可以适应复杂的作战场景,在StarCraft:BroodWar的2个基准场景中能够击败内置人工智能方法,胜率分别达到95%、99%,接近当前最好的基准方法。
【文章页数】:10 页
【文章目录】:
0 概述
1 相关工作
2 问题描述
3 RTS游戏微操方法
3.1 整体方案
3.2 状态表达
3.3 动作表达
3.4 基于卷积神经网络的联合策略模型
3.4.1 网络结构
3.4.2 损失函数
3.5 改进搜索方法
3.5.1 PGS w/JPN方法
3.5.2 POE w/JPN方法
3.5.3 SSS+ w/JPN方法
4 实验评估
4.1 场景设置
4.2 基准算法设置
4.3 数据集构建
4.4 结果分析
4.4.1 策略模型的预测性能评估
4.4.2 原始搜索方法与改进搜索方法的对比分析
4.4.3 内置AI与改进搜索方法的对比分析
5 结束语
【参考文献】:
期刊论文
[1]强化学习研究综述[J]. 马骋乾,谢伟,孙伟杰. 指挥控制与仿真. 2018(06)
[2]深度强化学习进展:从AlphaGo到AlphaGo Zero[J]. 唐振韬,邵坤,赵冬斌,朱圆恒. 控制理论与应用. 2017(12)
[3]深度强化学习综述:兼论计算机围棋的发展[J]. 赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红. 控制理论与应用. 2016(06)
[4]机器博弈海战兵棋推演系统的设计实现[J]. 傅调平,张奥狄,马滨强. 计算机仿真. 2015(03)
[5]亚马逊棋机器博弈系统中评估函数的研究[J]. 郭琴琴,李淑琴,包华. 计算机工程与应用. 2012(34)
[6]五子棋中Alpha-Beta搜索算法的研究与改进[J]. 程宇,雷小锋. 计算机工程. 2012(17)
[7]采用时间差分算法的九路围棋机器博弈系统[J]. 张小川,唐艳,梁宁宁. 智能系统学报. 2012(03)
[8]机器博弈研究面临的各种挑战[J]. 徐心和,邓志立,王骄,徐长明,刘纪红,马宗民. 智能系统学报. 2008(04)
本文编号:3674861
【文章页数】:10 页
【文章目录】:
0 概述
1 相关工作
2 问题描述
3 RTS游戏微操方法
3.1 整体方案
3.2 状态表达
3.3 动作表达
3.4 基于卷积神经网络的联合策略模型
3.4.1 网络结构
3.4.2 损失函数
3.5 改进搜索方法
3.5.1 PGS w/JPN方法
3.5.2 POE w/JPN方法
3.5.3 SSS+ w/JPN方法
4 实验评估
4.1 场景设置
4.2 基准算法设置
4.3 数据集构建
4.4 结果分析
4.4.1 策略模型的预测性能评估
4.4.2 原始搜索方法与改进搜索方法的对比分析
4.4.3 内置AI与改进搜索方法的对比分析
5 结束语
【参考文献】:
期刊论文
[1]强化学习研究综述[J]. 马骋乾,谢伟,孙伟杰. 指挥控制与仿真. 2018(06)
[2]深度强化学习进展:从AlphaGo到AlphaGo Zero[J]. 唐振韬,邵坤,赵冬斌,朱圆恒. 控制理论与应用. 2017(12)
[3]深度强化学习综述:兼论计算机围棋的发展[J]. 赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红. 控制理论与应用. 2016(06)
[4]机器博弈海战兵棋推演系统的设计实现[J]. 傅调平,张奥狄,马滨强. 计算机仿真. 2015(03)
[5]亚马逊棋机器博弈系统中评估函数的研究[J]. 郭琴琴,李淑琴,包华. 计算机工程与应用. 2012(34)
[6]五子棋中Alpha-Beta搜索算法的研究与改进[J]. 程宇,雷小锋. 计算机工程. 2012(17)
[7]采用时间差分算法的九路围棋机器博弈系统[J]. 张小川,唐艳,梁宁宁. 智能系统学报. 2012(03)
[8]机器博弈研究面临的各种挑战[J]. 徐心和,邓志立,王骄,徐长明,刘纪红,马宗民. 智能系统学报. 2008(04)
本文编号:3674861
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3674861.html