基于CNN和MCTS的非完备信息机器博弈研究

发布时间：2020-04-18 18:28

【摘要】：自从提出人工智能概念以来,机器博弈一直是最具挑战性的研究方向之一。机器博弈分为完备信息机器博弈和不完备信息机器博弈。不完备信息机器博弈的特点是玩家在博弈过程中无法获得所有的信息。现实世界中的许多决策问题都可以抽象为不完备信息博弈问题,例如机场规划,网络安全,财务和能源问题。因此,研究不完备信息机器博弈具有重要的现实意义。解决不完备信息机器博弈问题的传统方法是局部可观察的马尔可夫决策过程模型和强化学习算法。但是,强化学习不能在信息不完整和高维状态空间的情况下收敛。仅通过有限的数据和重复的测试就不可能遍历所有状态。本文提出了一种深度学习网络模型来解决一些不完备信息机器博弈问题中的大状态空间问题。由于引入了人类经验,因此基于神经网络的模型可以模拟博弈中的人类合作。本文提出了一种基于蒙特卡洛树搜索和简单风险模型的不完全信息博弈方法。本文使用深度学习网络代替强化学习中的状态作用值函数,解决了强化学习无法在高维状态空间中收敛的问题。本文将深度神经网络和改进的深度强化学习算法应用于信息不完全的机器博弈中,实现了二打一的机器博弈系统。与传统的学习算法相比,从感知到行动到端到端的学习策略达到了更高的博弈水平。改进的深度强化学习为大规模机器博弈系统的实现提供了一种可行的方法,也为将其扩展到现实生活提供了可能性。
【图文】：

蒙特卡洛,算法流程,机制选择

33图 4.2 蒙特卡洛博弈树搜索算法流程然后从新扩展的叶节点 tl进行仿真，以产生奖励值，，然后将该奖励值反向传播至为此迭代选择的节点序列，以更新节点统计信息；每个节点的访问次数都会增加，其平均奖励或 Q 值会根据更新。对于较简单的域，奖励值Δ可以是离散的（获胜/平局/亏损）结果，也可以是连续的奖励值，对于更复杂的多玩家域，奖励值可以是相对于每个玩家 p 的奖励值向量。一旦搜索中断或达到计算预算，搜索就会终止，并通过某种机制选择根节点 t0的
【学位授予单位】：西安电子科技大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TP18

【相似文献】