基于模拟退火策略的Sarsa强化学习方法
发布时间:2021-01-29 21:17
针对传统强化学习算法(如Sarsa算法)收敛速度缓慢的问题,提出了基于模拟退火策略的Sarsa(SA-Sarsa)算法。在策略选择上使用模拟退火策略替代ε-greedy策略,利用退火速率控制算法的收敛速度,有效克服了Sarsa算法直接通过随机数与贪婪值比较选择策略而导致的陷入局部最优解的问题,达到了保证最优解、提高收敛速度的目的。通过迷宫的路径规划问题仿真,将SA-Sarsa算法与Q-Learning和Sarsa两种传统算法进行了对比,实验表明,SA-Sarsa学习算法在取得同等最优解下探索效率高且收敛速度更快。
【文章来源】:计算机仿真. 2019,36(04)北大核心
【文章页数】:5 页
【文章目录】:
1 引言
2 强化学习
2.1 简介
2.2 Sarsa算法
3 基于模拟退火策略的Sarsa算法
3.1 模拟退火算法
3.2 基于模拟退火策略的Sarsa算法
4 实验及结果分析
4.1 实验环境
4.2 实验参数
4.3 实验结果与分析
5 结束语
【参考文献】:
期刊论文
[1]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进. 计算机学报. 2018(01)
[2]强化学习研究综述[J]. 高阳,陈世福,陆鑫. 自动化学报. 2004(01)
[3]基于Metropolis准则的Q-学习算法研究[J]. 郭茂祖,王亚东,刘 扬,孙华梅. 计算机研究与发展. 2002(06)
博士论文
[1]强化学习方法及其应用研究[D]. 黄炳强.上海交通大学 2007
硕士论文
[1]Qlearning强化学习算法的改进及应用研究[D]. 马朋委.安徽理工大学 2016
[2]基于强化学习的移动机器人路径规划研究[D]. 许亚.山东大学 2013
本文编号:3007625
【文章来源】:计算机仿真. 2019,36(04)北大核心
【文章页数】:5 页
【文章目录】:
1 引言
2 强化学习
2.1 简介
2.2 Sarsa算法
3 基于模拟退火策略的Sarsa算法
3.1 模拟退火算法
3.2 基于模拟退火策略的Sarsa算法
4 实验及结果分析
4.1 实验环境
4.2 实验参数
4.3 实验结果与分析
5 结束语
【参考文献】:
期刊论文
[1]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进. 计算机学报. 2018(01)
[2]强化学习研究综述[J]. 高阳,陈世福,陆鑫. 自动化学报. 2004(01)
[3]基于Metropolis准则的Q-学习算法研究[J]. 郭茂祖,王亚东,刘 扬,孙华梅. 计算机研究与发展. 2002(06)
博士论文
[1]强化学习方法及其应用研究[D]. 黄炳强.上海交通大学 2007
硕士论文
[1]Qlearning强化学习算法的改进及应用研究[D]. 马朋委.安徽理工大学 2016
[2]基于强化学习的移动机器人路径规划研究[D]. 许亚.山东大学 2013
本文编号:3007625
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3007625.html