基于强化学习的苏拉卡尔塔博弈算法
发布时间:2021-01-17 22:54
本文探讨了基于蒙特卡洛方法的强化学习博弈程序的原理,基于该原理结合BP算法设计了一个进行自学习的苏拉卡尔塔博弈程序。实验证明,该方法能让智能体不断的学习提高棋力,避免了繁琐的手工构建静态评估函数过程。
【文章来源】:智能计算机与应用. 2020,10(04)
【文章页数】:4 页
【部分图文】:
苏拉卡尔塔棋盘、棋子以及开局布局
为了加快自对弈速度,本文使用了根并行方法[10],如图2所示。当自对弈需要评估和扩展节点时,程序把当前局面发送到评估队列中,评估服务器按批进行前向推理并返回相应的自对弈程序。当一局自对弈程序完成后,对弈程序将局历史发送到训练服务器,训练服务器维护一个训练数据集池,训练服务器将数据加入到数据集池后,从数据池中采样进行一次反向传播计算更新权重。同时每1 min,训练服务器和评估服务器进行一次权重的同步,以保证评估服务器的权重是最新的。3 实验
本文编号:2983746
【文章来源】:智能计算机与应用. 2020,10(04)
【文章页数】:4 页
【部分图文】:
苏拉卡尔塔棋盘、棋子以及开局布局
为了加快自对弈速度,本文使用了根并行方法[10],如图2所示。当自对弈需要评估和扩展节点时,程序把当前局面发送到评估队列中,评估服务器按批进行前向推理并返回相应的自对弈程序。当一局自对弈程序完成后,对弈程序将局历史发送到训练服务器,训练服务器维护一个训练数据集池,训练服务器将数据加入到数据集池后,从数据池中采样进行一次反向传播计算更新权重。同时每1 min,训练服务器和评估服务器进行一次权重的同步,以保证评估服务器的权重是最新的。3 实验
本文编号:2983746
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2983746.html