当前位置:主页 > 科技论文 > 自动化论文 >

聚焦对象的强化学习算法研究

发布时间:2021-03-20 07:46
  强化学习是机器学习领域的一个重要分支,它采用学习与智能理论的一个基本想法——“通过与环境互动进行学习”来求解序列决策问题。由于其独特的“试错式(trialand-error)”学习机制,近年来得到越来越多研究者的关注。本文尝试从拓宽算法应用范围、改善学习效率等角度对强化学习算法进行研究,主要工作和创新如下:首先,针对不同马尔科夫决策过程(Markov Decision Process,MDP)中的相似度量问题,探讨了一种改进的相似度量算法,避免了先验知识和状态空间的约束,拓宽了算法的应用范围。其次,针对聚焦对象Q学习算法的复杂度和稳定性问题,探讨了一种简化的聚焦对象Q学习算法(Simplified Object Focused Q-learning,SOF-Q),通过采用新的控制策略来规避忽视状态空间带来的风险,仿真结果表明,SOF-Q算法在计算量和收敛稳定性上都有一定程度的改善。最后,针对OF-Q和SOF-Q中的控制错觉问题,基于Dyna架构改进了聚焦对象Q学习算法,通过将Dyna架构与聚焦对象的马尔科夫决策过程相结合来进行全局Q值的估计,利用了两者在状态空间探索利用上的优势,仿真结... 

【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校

【文章页数】:53 页

【学位级别】:硕士

【部分图文】:

聚焦对象的强化学习算法研究


马尔科夫决策过程中agent与环境的互动[3]

规划过程,优策略,空间规划,最优策略


规划过程

采样式,规划方法,单步,表格


图 2.3 学习、规划以及动作之间的关系[3] 中所有的过程,规划、动作、模型学习以及直采样式单步表格 Q 规划方法。直接强化学习是基于表格的,并且假定为确定环境。每次发生


本文编号:3090621

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3090621.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2bab9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com