当前位置:主页 > 科技论文 > AI论文 >

机器自学习博弈策略研究与实现

发布时间:2021-01-13 05:10
  人工智能是近年来很活跃的研究领域之一。机器学习和博弈是人工智能研究的重要分支。国内外对博弈的研究已经较为广泛,特别是IBM的国际象棋程序“深蓝”,已经达到了人类的世界冠军水平。但是这些程序或者需要经过大量训练,或者采用死记硬背的学习方法,或者是采用大规模搜索算法实现,难以避免“组合爆炸”的危机,因此,一个真正“智能”的,有学习能力的高效率的博弈策略还有待进一步研究。本文将TD(Temporal Difference)预测与BP神经网络相结合,得到一种用于博弈的强化学习法,以博弈中常用的极小极大搜索法和NegeScout搜索法为基础,并应用它实现了一个能自学习的五子棋博弈程序。该方法克服了使用静态估值函数的不足,实践证明,该方法是成功的,使用该方法的程序经过较短时间的训练后达到了较好的下棋水平。本文首先研究了五子棋在计算机中的表示问题,讨论了计算机中存贮棋局和识别下棋次序,局势状态变化及局势特征的等方法。其次研究了博弈树的极小极大搜索技术及在此基础上的α-β剪枝过程和剪枝优化问题。实现将候选的后继节点按位置邻近顺序排序,使剪枝过程得到优化。此外还研究了α-β剪枝的改进算法NegeScou... 

【文章来源】:广西师范大学广西壮族自治区

【文章页数】:46 页

【学位级别】:硕士

【部分图文】:

机器自学习博弈策略研究与实现


-5优先搜索空点1

特征形式,主要特征


如“五子连”,在棋盘上有四种出现形式。如图某路上有此特征。如(a)图称为横 x 路上有五子连特征特征,(c)图称为左斜 x 路上有五子连特征,(d)图称它特征也是同样。中,程序使用的主要特征有:(1) “OOOOO” (2) “+OOOO+”(3) “+OOO++” (4) “++OOO+”5) “+OO+O+” (6) “+O+OO+”7) “OOOO+’ (8) “+OOOO”9) “OO+OO” (10) “O+OOO”11) “OOO+O” (12) “++OO++”13) “++O+O+” (14) “+O+O++”(c) (d)图 4-2 棋盘特征形式

棋局,估值,形势判断,极小极大


所以局势 n 的总得分为:的不足及实践结果采用极小极大搜索加静态估值技术,实的业余人员时常也会负于此程序。用固定的估值法,为设计这个估值函数能充分判断棋局局面中的某一特征在形势给整个局面比较准确的评分。但是面对精确的形势判断,特别是在对局的开始量的棋局状态进行存储,就要求有大的函数不可能有很大的准确性。“智力”较低,而且固定的赋值方式使图 4-3 局势特征例

【参考文献】:
期刊论文
[1]基于 PDC-PROLOG 自学习机器博弈[J]. 廖家平,舒军,王粟.  湖北工学院学报. 1997(04)
[2]博弈树搜索与静态估值函数[J]. 肖齐英,王正志.  计算机应用研究. 1997(04)
[3]在计算机围棋中形象思维的研究[J]. 王鲁明,戴汝为.  自动化学报. 1997(04)



本文编号:2974281

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/rengongzhinen/2974281.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户06583***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com