当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于强化学习的苏拉卡尔塔博弈算法

发布时间:2021-01-17 22:54
  本文探讨了基于蒙特卡洛方法的强化学习博弈程序的原理,基于该原理结合BP算法设计了一个进行自学习的苏拉卡尔塔博弈程序。实验证明,该方法能让智能体不断的学习提高棋力,避免了繁琐的手工构建静态评估函数过程。 

【文章来源】:智能计算机与应用. 2020,10(04)

【文章页数】:4 页

【部分图文】:

基于强化学习的苏拉卡尔塔博弈算法


苏拉卡尔塔棋盘、棋子以及开局布局

架构图,架构,服务器,权重


为了加快自对弈速度,本文使用了根并行方法[10],如图2所示。当自对弈需要评估和扩展节点时,程序把当前局面发送到评估队列中,评估服务器按批进行前向推理并返回相应的自对弈程序。当一局自对弈程序完成后,对弈程序将局历史发送到训练服务器,训练服务器维护一个训练数据集池,训练服务器将数据加入到数据集池后,从数据池中采样进行一次反向传播计算更新权重。同时每1 min,训练服务器和评估服务器进行一次权重的同步,以保证评估服务器的权重是最新的。3 实验


本文编号:2983746

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2983746.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9e3a5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com