当前位置:主页 > 科技论文 > 自动化论文 >

基于CNN和MCTS的非完备信息机器博弈研究

发布时间:2020-04-18 18:28
【摘要】:自从提出人工智能概念以来,机器博弈一直是最具挑战性的研究方向之一。机器博弈分为完备信息机器博弈和不完备信息机器博弈。不完备信息机器博弈的特点是玩家在博弈过程中无法获得所有的信息。现实世界中的许多决策问题都可以抽象为不完备信息博弈问题,例如机场规划,网络安全,财务和能源问题。因此,研究不完备信息机器博弈具有重要的现实意义。解决不完备信息机器博弈问题的传统方法是局部可观察的马尔可夫决策过程模型和强化学习算法。但是,强化学习不能在信息不完整和高维状态空间的情况下收敛。仅通过有限的数据和重复的测试就不可能遍历所有状态。本文提出了一种深度学习网络模型来解决一些不完备信息机器博弈问题中的大状态空间问题。由于引入了人类经验,因此基于神经网络的模型可以模拟博弈中的人类合作。本文提出了一种基于蒙特卡洛树搜索和简单风险模型的不完全信息博弈方法。本文使用深度学习网络代替强化学习中的状态作用值函数,解决了强化学习无法在高维状态空间中收敛的问题。本文将深度神经网络和改进的深度强化学习算法应用于信息不完全的机器博弈中,实现了二打一的机器博弈系统。与传统的学习算法相比,从感知到行动到端到端的学习策略达到了更高的博弈水平。改进的深度强化学习为大规模机器博弈系统的实现提供了一种可行的方法,也为将其扩展到现实生活提供了可能性。
【图文】:

蒙特卡洛,算法流程,机制选择


33图 4.2 蒙特卡洛博弈树搜索算法流程然后从新扩展的叶节点 tl进行仿真,以产生奖励值 ,,然后将该奖励值 反向传播至为此迭代选择的节点序列,以更新节点统计信息;每个节点的访问次数都会增加,其平均奖励或 Q 值会根据 更新。对于较简单的域,奖励值Δ可以是离散的(获胜/平局/亏损)结果,也可以是连续的奖励值,对于更复杂的多玩家域,奖励值可以是相对于每个玩家 p 的奖励值向量。一旦搜索中断或达到计算预算,搜索就会终止,并通过某种机制选择根节点 t0的
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18

【相似文献】

相关期刊论文 前10条

1 郭琴琴;李淑琴;包华;;亚马逊棋机器博弈系统中评估函数的研究[J];计算机工程与应用;2012年34期

2 ;2007全国机器博弈学术研讨会征稿[J];重庆工学院学报(自然科学版);2007年02期

3 张加佳;王轩;;机器博弈风险分析及其估算方法的研究[J];高技术通讯;2013年09期

4 张振;庞海;;机器博弈及其搜索算法的研究[J];软件导刊;2008年07期

5 张振;顾治华;;机器博弈及其搜索算法的研究[J];电脑知识与技术;2008年24期

6 ;“第二届中国机器博弈锦标赛暨2007中国机器博弈学术研讨会”于2007年10月在重庆工学院隆重举行[J];重庆工学院学报(自然科学版);2007年12期

7 ;棋讯[J];棋艺(象棋);2010年12期

8 何轩;洪迎伟;王开译;彭耶萍;;机器博弈中搜索策略和估值函数的设计——以六子棋为例[J];电脑知识与技术;2019年34期

9 刘成;李飞;孙玉霞;尹航;邱虹坤;王亚杰;;贯穿式案例教学法在机器博弈课程中的实践[J];计算机教育;2019年08期

10 ;中国人工智能学会机器博弈专业委员会[J];智能系统学报;2013年01期

相关会议论文 前4条

1 王珏;程然;王骄;;人工神经元网络结合TD(λ)算法在中国象棋机器博弈中的应用[A];2009中国控制与决策会议论文集(2)[C];2009年

2 朱峰;张雪峰;徐心和;;关于机器博弈中的逐步展开型对策的一点讨论[A];2007中国控制与决策学术年会论文集[C];2007年

3 徐心和;王浩;孔凡禹;;事件对策理论及在棋类游戏中的应用[A];2007年中国智能自动化会议论文集[C];2007年

4 王洪岩;朱峰;张雪峰;李玉倩;安爽;徐心和;;一种基于粗神经网络的中国象棋机器博弈评估实现[A];2007中国控制与决策学术年会论文集[C];2007年

相关重要报纸文章 前3条

1 蒋佑铭;电脑围棋对弈技术的发展趋势[N];围棋报;2009年

2 本报记者 朱芙蓉;人机博弈:机器“终结”西洋跳棋[N];科技日报;2008年

3 记者 何鑫 通讯员 张燕霖;高交会“中国象棋人机大战”今开战[N];深圳商报;2009年

相关博士学位论文 前4条

1 张加佳;非完备信息机器博弈中风险及对手模型的研究[D];哈尔滨工业大学;2015年

2 徐长明;基于连珠模式的六子棋机器博弈关键技术研究[D];东北大学;2010年

3 南海;单回合的回合制战棋博弈模型搜索算法研究[D];重庆大学;2016年

4 谭科;基于博弈实验的电力市场综合模拟与分析[D];华南理工大学;2014年

相关硕士学位论文 前10条

1 罗俊逸;基于Alpha-Beta剪枝与启发式演算的简单吃墩博弈方法[D];重庆邮电大学;2019年

2 刘伟;基于CNN和MCTS的非完备信息机器博弈研究[D];西安电子科技大学;2019年

3 吴天栋;非完备信息机器博弈算法及对手模型的研究[D];武汉理工大学;2018年

4 李羽戈;桥牌叫牌机器博弈模型及算法研究[D];北京邮电大学;2019年

5 胡开亮;基于状态抽象和残局解算的二人非限制性德州扑克策略的研究[D];哈尔滨工业大学;2017年

6 朱航宇;基于深度强化学习的3D游戏的非完备信息机器博弈研究[D];哈尔滨工业大学;2018年

7 王鹏程;基于深度强化学习的非完备信息机器博弈研究[D];哈尔滨工业大学;2017年

8 代佳宁;基于虚拟遗憾最小化算法的非完备信息机器博弈研究[D];哈尔滨工业大学;2017年

9 李昌;基于Q学习算法的非完备信息机器博弈的研究[D];哈尔滨工业大学;2015年

10 唐艳;围棋博弈机器学习算法的研究及应用[D];重庆理工大学;2012年



本文编号:2632395

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2632395.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e40bf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com