基于CNN和MCTS的非完备信息机器博弈研究
【图文】:
33图 4.2 蒙特卡洛博弈树搜索算法流程然后从新扩展的叶节点 tl进行仿真,以产生奖励值 ,,然后将该奖励值 反向传播至为此迭代选择的节点序列,以更新节点统计信息;每个节点的访问次数都会增加,其平均奖励或 Q 值会根据 更新。对于较简单的域,奖励值Δ可以是离散的(获胜/平局/亏损)结果,也可以是连续的奖励值,对于更复杂的多玩家域,奖励值可以是相对于每个玩家 p 的奖励值向量。一旦搜索中断或达到计算预算,搜索就会终止,并通过某种机制选择根节点 t0的
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18
【相似文献】
相关期刊论文 前10条
1 郭琴琴;李淑琴;包华;;亚马逊棋机器博弈系统中评估函数的研究[J];计算机工程与应用;2012年34期
2 ;2007全国机器博弈学术研讨会征稿[J];重庆工学院学报(自然科学版);2007年02期
3 张加佳;王轩;;机器博弈风险分析及其估算方法的研究[J];高技术通讯;2013年09期
4 张振;庞海;;机器博弈及其搜索算法的研究[J];软件导刊;2008年07期
5 张振;顾治华;;机器博弈及其搜索算法的研究[J];电脑知识与技术;2008年24期
6 ;“第二届中国机器博弈锦标赛暨2007中国机器博弈学术研讨会”于2007年10月在重庆工学院隆重举行[J];重庆工学院学报(自然科学版);2007年12期
7 ;棋讯[J];棋艺(象棋);2010年12期
8 何轩;洪迎伟;王开译;彭耶萍;;机器博弈中搜索策略和估值函数的设计——以六子棋为例[J];电脑知识与技术;2019年34期
9 刘成;李飞;孙玉霞;尹航;邱虹坤;王亚杰;;贯穿式案例教学法在机器博弈课程中的实践[J];计算机教育;2019年08期
10 ;中国人工智能学会机器博弈专业委员会[J];智能系统学报;2013年01期
相关会议论文 前4条
1 王珏;程然;王骄;;人工神经元网络结合TD(λ)算法在中国象棋机器博弈中的应用[A];2009中国控制与决策会议论文集(2)[C];2009年
2 朱峰;张雪峰;徐心和;;关于机器博弈中的逐步展开型对策的一点讨论[A];2007中国控制与决策学术年会论文集[C];2007年
3 徐心和;王浩;孔凡禹;;事件对策理论及在棋类游戏中的应用[A];2007年中国智能自动化会议论文集[C];2007年
4 王洪岩;朱峰;张雪峰;李玉倩;安爽;徐心和;;一种基于粗神经网络的中国象棋机器博弈评估实现[A];2007中国控制与决策学术年会论文集[C];2007年
相关重要报纸文章 前3条
1 蒋佑铭;电脑围棋对弈技术的发展趋势[N];围棋报;2009年
2 本报记者 朱芙蓉;人机博弈:机器“终结”西洋跳棋[N];科技日报;2008年
3 记者 何鑫 通讯员 张燕霖;高交会“中国象棋人机大战”今开战[N];深圳商报;2009年
相关博士学位论文 前4条
1 张加佳;非完备信息机器博弈中风险及对手模型的研究[D];哈尔滨工业大学;2015年
2 徐长明;基于连珠模式的六子棋机器博弈关键技术研究[D];东北大学;2010年
3 南海;单回合的回合制战棋博弈模型搜索算法研究[D];重庆大学;2016年
4 谭科;基于博弈实验的电力市场综合模拟与分析[D];华南理工大学;2014年
相关硕士学位论文 前10条
1 罗俊逸;基于Alpha-Beta剪枝与启发式演算的简单吃墩博弈方法[D];重庆邮电大学;2019年
2 刘伟;基于CNN和MCTS的非完备信息机器博弈研究[D];西安电子科技大学;2019年
3 吴天栋;非完备信息机器博弈算法及对手模型的研究[D];武汉理工大学;2018年
4 李羽戈;桥牌叫牌机器博弈模型及算法研究[D];北京邮电大学;2019年
5 胡开亮;基于状态抽象和残局解算的二人非限制性德州扑克策略的研究[D];哈尔滨工业大学;2017年
6 朱航宇;基于深度强化学习的3D游戏的非完备信息机器博弈研究[D];哈尔滨工业大学;2018年
7 王鹏程;基于深度强化学习的非完备信息机器博弈研究[D];哈尔滨工业大学;2017年
8 代佳宁;基于虚拟遗憾最小化算法的非完备信息机器博弈研究[D];哈尔滨工业大学;2017年
9 李昌;基于Q学习算法的非完备信息机器博弈的研究[D];哈尔滨工业大学;2015年
10 唐艳;围棋博弈机器学习算法的研究及应用[D];重庆理工大学;2012年
本文编号:2632395
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2632395.html