围棋自对弈系统在高性能运算集群上的构建与实现

发布时间：2021-03-10 16:38

　　围棋,拥有上千年的历史,由于其具有天文数字的状态空间和决策空间,计算机在可接受的时间范围内能够穷举得出的盘面数量非常少。也因此,在2016年以前,人类普遍认为计算机围棋将很难战胜职业棋手,被认为是最复杂的智力游戏。计算机围棋的发展也经过了多年的演变,从早期的极大极小值算法,到蒙特卡洛树搜索算法,再到alphaGo、AlphaGo Zero的深度学习方法,计算机围棋的水平终于得到了飞跃般的提升。本文主要阐述如何将“AlphaGo Zero”增强学习的模式,移植于我国的神威·太湖之光超级计算机（以下简称“神威”）中,使其可以在神威的CPU超算集群中,进行不需要人力干涉的增强学习完整流程。该流程也在实际的运行中得到了验证,并将在本文中对于具体的运行流程与运行结果做出介绍、分析、总结。在本论文的研究工作中,核心工作主要分为三部分:1、根据神威超算集群的特点,设计并实现增强学习的整体流程;2、对于蒙特卡洛树搜索算法的原理进行深入探讨与研究,并在不影响算法有效性的前提下进行优化;3、运行完整流程,根据实际运行中遇到的问题,及时做出调整与完善。本论文也将主要围绕这三部分的工作进行研究与讨论。在项目的...

【文章来源】：北京邮电大学北京市 211工程院校教育部直属院校

【文章页数】：57 页

【学位级别】：硕士

【部分图文】：

图３－６对弈树复用示意图??

人类,示例,胜率,围棋

初学者硬要去模仿围棋大师下棋，导致的直接结果是：实际对弈中的网络很快??变得向人类棋谱的方向发展，并“学会”抢占一些关键点，但事实上却对于最??根本的提子、死活完全没有理解，棋力没有得到有效的提高。（如图４－２）黑方??的胜率继续下降，从而导致人类棋谱数据的比例进一步提升，对弈棋谱的质量??逐渐下降。在这种情况下，这一次的系统流程依然失败。??３６??

运行过程,人类,胜率,白方

其次，假设初始状态时，由于黑棋的先手优势少于７．５目，导致黑棋胜率??较低。那么，为了在选择棋谱的时候，保证双方的胜率相同，则会有部分白棋??获胜的棋谱剩佘，这部分棋谱被转换为训练数据的时间更晚，如图４－３?（ａ）。??同时，又因为网络是在不断进化的，越晚生成的棋谱质量越高，从而导致在最??新的训练数据中，黑方获胜的棋谱的质量会略高于白方获胜的棋谱，这进一步??使得神经网络中白方的胜率降低，对于本身黑棋胜率下降的现象产生了负反馈??调节，如图４－３?（ｂ）。同理，当白棋胜率较低时，这种机制也会使得白棋的胜??率逐渐回升。使用这种方式，在保证了双方胜率均衡、不影响神经网络训练的??同时，也能保证黑白双方的棋力同步进化。??３７??

本文编号：3074945

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3074945.html

上一篇：分页存储器系统的地址转换问题探讨
下一篇：中职计算机专业学生就业现状与有效指导策略研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|