基于强化学习的苏拉卡尔塔博弈算法

发布时间：2021-01-17 22:54

　　本文探讨了基于蒙特卡洛方法的强化学习博弈程序的原理,基于该原理结合BP算法设计了一个进行自学习的苏拉卡尔塔博弈程序。实验证明,该方法能让智能体不断的学习提高棋力,避免了繁琐的手工构建静态评估函数过程。

【文章来源】：智能计算机与应用. 2020,10(04)

【文章页数】：4 页

【部分图文】：

基于强化学习的苏拉卡尔塔博弈算法

苏拉卡尔塔棋盘、棋子以及开局布局

架构图,架构,服务器,权重

为了加快自对弈速度，本文使用了根并行方法[10]，如图2所示。当自对弈需要评估和扩展节点时，程序把当前局面发送到评估队列中，评估服务器按批进行前向推理并返回相应的自对弈程序。当一局自对弈程序完成后，对弈程序将局历史发送到训练服务器，训练服务器维护一个训练数据集池，训练服务器将数据加入到数据集池后，从数据池中采样进行一次反向传播计算更新权重。同时每1 min，训练服务器和评估服务器进行一次权重的同步，以保证评估服务器的权重是最新的。3 实验

本文编号：2983746

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2983746.html

上一篇：基于拓扑位置关系的无人艇路径搜索方法
下一篇：寻根文学对传统文化的找寻与反思 ——基于乡土文化意蕴的思考

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|