当前位置:主页 > 科技论文 > 自动化论文 >

非完备信息机器博弈算法及对手模型的研究

发布时间:2021-11-09 05:53
  随着计算机技术的发展,人工智能领域产生了一系列杰出的成果。尤其是在完备信息博弈方面,计算机通过博弈树搜索、动态规划、α-β减枝算法等经典方法已经可以解决大多数完备信息博弈问题。但是与完备信息博弈不同,在非完备信息博弈中参与者无法获取对手的全部信息,而且在博弈中的不确定性因素(例如随机风险、对手策略的调整、对手欺诈行为等)给研究工作带来了不少难题。本文以德州扑克为实验对象,研究非完备信息机器博弈中的算法,主要研究内容如下:首先,从德州扑克的博弈特性出发,分析了其博弈过程中的状态空间复杂度,介绍了经典的机器博弈算法,分析得出经典的博弈算法难以应用到德州扑克机的机器博弈中。针对现代主流的研究方法进行了归类,一类是基于纳什均衡策略的算法,另一类是对手建模方法。前者主要侧重于计算博弈中的纳什均衡策略,其中虚拟遗憾最小化算法是目前最主流的算法之一。后者旨在在博弈中利用对手的弱点,实现收益最大化。然后,深入研究了虚拟遗憾最小化算法,利用时序差分学习改进了该算法旨在提高算法的效率。针对德州扑克机器博弈中状态空间规模过于巨大的问题,提出了底牌抽象化技术与手牌评估算法简化了状态空间并基于改进的算法建立了机... 

【文章来源】:武汉理工大学湖北省 211工程院校 教育部直属院校

【文章页数】:81 页

【学位级别】:硕士

【部分图文】:

非完备信息机器博弈算法及对手模型的研究


某一信息集下2人德州扑克博弈的树形图

搜索树,蒙特卡洛,模拟过程,扑克


弈树因为得到扩展,规模逐渐增大,随着模拟运算的次数增加,计算出收益值结果也越来越逼近真实值。另一方面博弈树的扩展部分包含了大量可供分析信息,计算收益值的函数可以依靠这些信息做进一步优化。在德州扑克中的蒙特卡洛搜索树方法包含有 4 个阶段:子节点优选阶段、博树扩展阶段、模拟计算阶段和回溯更新阶段。德州扑克中蒙特卡洛搜索树方法模拟过程如图 2-2 所示。

示意图,贝叶斯网络,示意图,随机变量


形的方法来表示随机变量之间的概率关系,性问题的有力手段。贝叶斯网络,由一个有一个有向无环图来表示一组随机变量跟它过条件概率分布来参数化,每个节点的定,其中 Pa ( node )表示网络中的父节点,


本文编号:3484755

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3484755.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c689d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com