基于深度学习和蒙特卡洛树搜索的围棋博弈研究
发布时间:2020-04-08 22:37
【摘要】:完备信息博弈一直是机器博弈的主要研究方向,而机器博弈是人工智能的重要领域,是检验人工智能发展水平的重要指标之一。在完备信息博弈中,简单而深邃的围棋在计算机中的处理具有极高的复杂性,是检验机器博弈水平的重要手段。围棋机器博弈的研究成果可以应用到人工智能的其他领域,包括金融决策和运动控制等。2016年Deepmind团队推出的Alpha Go一举战胜了围棋世界冠军李世石,但这并不代表围棋问题已经被完美地解决,围棋博弈中还有很多值得研究的问题。蒙特卡洛树搜索算法的一个重要步骤为模拟,在给定的时间内,模拟的次数越多,蒙特卡洛树搜索算法的结果越准确,返回的结果可参考性越高。模拟中需要策略进行快速走子,传统的方法采用基于模式的方法进行快速走子,但是基于模式的快速走子存在一些问题:模式存储在内存中,每次需要对棋盘中的模式进行统计比对,会耗费大量的时间;基于模式的方法在快速走子时的准确率不高,影响模拟的结果。为了解决上述问题,本论文采用深度学习与蒙特卡洛树搜索算法结合的方法,用深度学习对棋谱进行学习得到网络层数较多的策略网络和网络层数较少的快速走子网络,用策略网络结合蒙特卡洛树搜索算法对博弈树进行搜索,并且针对用模式进行快速走子方法的缺陷提出了利用训练的快速走子网络来进行快速走子的方法。该方法利用3至5层卷积神经网络进行快速走子满足蒙特卡洛树搜索算法中模拟时对快速走子时间的要求,且较于传统的基于模式的方法在对棋谱的预测上准确率更高,使得模拟的结果更有参考价值。另外,使用快速走子网络能够更好地利用GPU资源,且不需要对模式进行统计和比对,提升了蒙特卡洛树搜索算法中模拟的速度。本论文将快速走子网络方法应用在围棋博弈的蒙特卡洛树搜索算法中,实现了基于深度学习和蒙特卡洛树搜索算法的围棋博弈智能体,利用本论文实现的智能体与传统的基于模式的蒙特卡洛树搜索算法智能体对弈,验证了算法的有效性。
【图文】:
图 2-1 围棋棋盘中,计算机不仅与对手下围棋中一般会采取一个对计算的发展至关重要。世界上目以及应氏围棋规则,三种规用的是中国或者日本围棋规判定双方棋手占地多少的规采取的是“数子”的方式,以在计算机围棋博弈中,普遍目”法。围棋规则中黑方先势为 7.5 个棋子,在终局判到 185(即大于 361/2+7.5/2(即大于 361/2-7.5/2=176.75法为“数目”法,需要判断围点属于己方或者对方是一件弈都普遍采用的中国围棋规
状态后结果为17010 ,从数字上来看,围棋的状态空象棋远远不能比的。复杂度为博弈从初始状态开始能够生成的所有可能为博弈树的大小反应了博弈过程中搜索空间的大小点越多,要想对博弈树进行搜索就更困难,所以可博弈的难度。从博弈树复杂度来看,中国象棋的博棋的博弈树复杂度为12310 ,,19 路围棋的博弈树复围棋的博弈树复杂度也是中国象棋和国际象棋远远博弈树用博弈树来解决博弈问题,基本方法是从初始博弈方能够选择的所有合法的动作对博弈树进行扩展,结束状态。图 2-2 给出简单井字棋游戏的前三层博已经合并为一个局面。井字游戏为玩家双方分别放,直到一方率先使得己方的三个棋子能横、竖或者
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP18
本文编号:2619908
【图文】:
图 2-1 围棋棋盘中,计算机不仅与对手下围棋中一般会采取一个对计算的发展至关重要。世界上目以及应氏围棋规则,三种规用的是中国或者日本围棋规判定双方棋手占地多少的规采取的是“数子”的方式,以在计算机围棋博弈中,普遍目”法。围棋规则中黑方先势为 7.5 个棋子,在终局判到 185(即大于 361/2+7.5/2(即大于 361/2-7.5/2=176.75法为“数目”法,需要判断围点属于己方或者对方是一件弈都普遍采用的中国围棋规
状态后结果为17010 ,从数字上来看,围棋的状态空象棋远远不能比的。复杂度为博弈从初始状态开始能够生成的所有可能为博弈树的大小反应了博弈过程中搜索空间的大小点越多,要想对博弈树进行搜索就更困难,所以可博弈的难度。从博弈树复杂度来看,中国象棋的博棋的博弈树复杂度为12310 ,,19 路围棋的博弈树复围棋的博弈树复杂度也是中国象棋和国际象棋远远博弈树用博弈树来解决博弈问题,基本方法是从初始博弈方能够选择的所有合法的动作对博弈树进行扩展,结束状态。图 2-2 给出简单井字棋游戏的前三层博已经合并为一个局面。井字游戏为玩家双方分别放,直到一方率先使得己方的三个棋子能横、竖或者
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP18
【参考文献】
相关博士学位论文 前1条
1 张加佳;非完备信息机器博弈中风险及对手模型的研究[D];哈尔滨工业大学;2015年
相关硕士学位论文 前1条
1 李昌;基于Q学习算法的非完备信息机器博弈的研究[D];哈尔滨工业大学;2015年
本文编号:2619908
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2619908.html