当前位置:主页 > 科技论文 > 自动化论文 >

基于手牌预测的多人无限注德州扑克博弈方法

发布时间:2020-02-03 21:24
【摘要】:作为非完备信息博弈的典型代表,德州扑克一直是人工智能领域内的难题.尤其在多人无限注德州扑克中,博弈策略的制定需要考虑诸多复杂因素,加上其解空间巨大,使问题极具挑战.一般有两种思路解决之:第一种是基于博弈论的方法,通过搜索博弈树、寻找纳什均衡点得到最佳策略;第二种是基于知识的方法,通过学习人类玩家的行动来制定博弈策略.该文的方法属于后者:提出了一种基于牌型预测的德州扑克博弈方法.该方法的基本思想是模拟人类玩家的"读牌"能力.读牌是德州扑克对抗中的重要部分,即根据对手表现出的即时信息及过往的行为习惯,判断对手手牌的大致分布甚至精确牌型.读牌之所以可行,是因为随着牌局发展,对手会进行多次行动,而这些行动往往体现了其手牌信息.文章从非完备信息博弈的角度出发,提出了一套完整的博弈框架,并讨论框架的适用性.随后,将该框架具体应用于德州扑克,将研究重点放在未知信息集的预测上,并采用蒙特卡洛方法计算胜率、得出决策.文章详细地阐述了该方法的设计思想和实现细节,为多人无限注德州扑克程序的设计提供了宝贵的参考.该文是首篇全面论述并设计实现了基于对手手牌预测的多人(超过三人)无限注德州扑克程序的论文.在对手牌型预测上,该文程序比马尔可夫模型的预测精度平均高出6.65%.在博弈性能上,选择2015年华为软件精英挑战赛上的七个程序进行比较,采用锦标赛赛制(允许一次后续买入).两人局比赛的平均胜率为89%,八人局比赛的平均名次为1.74.同时在筹码胜负、坚持局数等多项指标上均取得最好成绩.
【图文】:

基于手牌预测的多人无限注德州扑克博弈方法


图7本文模型(FOLD)和Markov模型的牌型预测精度对比

重复次数,一对一,筹码,胜率


手在该牌局中之前所有轮次的行为,因此轮次越后我方获得的信息越多.所以本模型可以在后续轮次中也能较准确地计算对手的牌力.实际上,后续轮次的牌型预测在总体的筹码胜负上更为关键.因为一局比赛中,轮次越往后底池越大,筹码胜负也越多.5.3两人无限注德州扑克我们先进行两人无限注德州扑克的比赛,再探讨多人的情况.为消除随机因素,需进行多次重复实验[26].理论上,重复次数越多,所得结果越准确.在研究中我们发现,随着比赛次数的增加,所得结果会很快地收敛.图8显示随着比赛进行次数的不断增加,选手平均排名与进行500场比赛的平均排名的重合度.由图可知,在进行了70局左右比赛的时候,重合度便达到95%,且标准误差(StandardError,SE)低于2.5%.因此,比赛仅需重复70场以上,即可得到具有统计意义的结果.在本文的实验中,我们将进行100次的重复实验,将实验的平均值和标准误差同时进行展示.图8重复次数对排名重合率的影响表3是一对一比赛(heads-up)的结果.表中任一单元格表示对应两个程序之间的比赛值结果,包括相互胜率和平均筹码胜负关系.例如HC对抗LUO的胜率为65%,筹码剩余量平均多出1752,标准误差为350.表3的最后一行是本文程序的比赛结果.如表所示,本文程序的总体胜率达到89%.具体而言,,在逐一面对其它七个程序时,胜率均超过65%.5.4多人无限注德州扑克这里的人数是指比赛开始时的人数.因为在比赛过程中,会陆续有选手输掉所有筹码而被淘汰.例如在五人局中,


本文编号:2576126

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2576126.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户daec1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com