围棋自对弈系统在高性能运算集群上的构建与实现
发布时间:2021-03-10 16:38
围棋,拥有上千年的历史,由于其具有天文数字的状态空间和决策空间,计算机在可接受的时间范围内能够穷举得出的盘面数量非常少。也因此,在2016年以前,人类普遍认为计算机围棋将很难战胜职业棋手,被认为是最复杂的智力游戏。计算机围棋的发展也经过了多年的演变,从早期的极大极小值算法,到蒙特卡洛树搜索算法,再到alphaGo、AlphaGo Zero的深度学习方法,计算机围棋的水平终于得到了飞跃般的提升。本文主要阐述如何将“AlphaGo Zero”增强学习的模式,移植于我国的神威·太湖之光超级计算机(以下简称“神威”)中,使其可以在神威的CPU超算集群中,进行不需要人力干涉的增强学习完整流程。该流程也在实际的运行中得到了验证,并将在本文中对于具体的运行流程与运行结果做出介绍、分析、总结。在本论文的研究工作中,核心工作主要分为三部分:1、根据神威超算集群的特点,设计并实现增强学习的整体流程;2、对于蒙特卡洛树搜索算法的原理进行深入探讨与研究,并在不影响算法有效性的前提下进行优化;3、运行完整流程,根据实际运行中遇到的问题,及时做出调整与完善。本论文也将主要围绕这三部分的工作进行研究与讨论。在项目的...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
图3-6对弈树复用示意图??
初学者硬要去模仿围棋大师下棋,导致的直接结果是:实际对弈中的网络很快??变得向人类棋谱的方向发展,并“学会”抢占一些关键点,但事实上却对于最??根本的提子、死活完全没有理解,棋力没有得到有效的提高。(如图4-2)黑方??的胜率继续下降,从而导致人类棋谱数据的比例进一步提升,对弈棋谱的质量??逐渐下降。在这种情况下,这一次的系统流程依然失败。??36??
其次,假设初始状态时,由于黑棋的先手优势少于7.5目,导致黑棋胜率??较低。那么,为了在选择棋谱的时候,保证双方的胜率相同,则会有部分白棋??获胜的棋谱剩佘,这部分棋谱被转换为训练数据的时间更晚,如图4-3?(a)。??同时,又因为网络是在不断进化的,越晚生成的棋谱质量越高,从而导致在最??新的训练数据中,黑方获胜的棋谱的质量会略高于白方获胜的棋谱,这进一步??使得神经网络中白方的胜率降低,对于本身黑棋胜率下降的现象产生了负反馈??调节,如图4-3?(b)。同理,当白棋胜率较低时,这种机制也会使得白棋的胜??率逐渐回升。使用这种方式,在保证了双方胜率均衡、不影响神经网络训练的??同时,也能保证黑白双方的棋力同步进化。??37??
本文编号:3074945
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
图3-6对弈树复用示意图??
初学者硬要去模仿围棋大师下棋,导致的直接结果是:实际对弈中的网络很快??变得向人类棋谱的方向发展,并“学会”抢占一些关键点,但事实上却对于最??根本的提子、死活完全没有理解,棋力没有得到有效的提高。(如图4-2)黑方??的胜率继续下降,从而导致人类棋谱数据的比例进一步提升,对弈棋谱的质量??逐渐下降。在这种情况下,这一次的系统流程依然失败。??36??
其次,假设初始状态时,由于黑棋的先手优势少于7.5目,导致黑棋胜率??较低。那么,为了在选择棋谱的时候,保证双方的胜率相同,则会有部分白棋??获胜的棋谱剩佘,这部分棋谱被转换为训练数据的时间更晚,如图4-3?(a)。??同时,又因为网络是在不断进化的,越晚生成的棋谱质量越高,从而导致在最??新的训练数据中,黑方获胜的棋谱的质量会略高于白方获胜的棋谱,这进一步??使得神经网络中白方的胜率降低,对于本身黑棋胜率下降的现象产生了负反馈??调节,如图4-3?(b)。同理,当白棋胜率较低时,这种机制也会使得白棋的胜??率逐渐回升。使用这种方式,在保证了双方胜率均衡、不影响神经网络训练的??同时,也能保证黑白双方的棋力同步进化。??37??
本文编号:3074945
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3074945.html