聚焦对象的强化学习算法研究
发布时间:2021-03-20 07:46
强化学习是机器学习领域的一个重要分支,它采用学习与智能理论的一个基本想法——“通过与环境互动进行学习”来求解序列决策问题。由于其独特的“试错式(trialand-error)”学习机制,近年来得到越来越多研究者的关注。本文尝试从拓宽算法应用范围、改善学习效率等角度对强化学习算法进行研究,主要工作和创新如下:首先,针对不同马尔科夫决策过程(Markov Decision Process,MDP)中的相似度量问题,探讨了一种改进的相似度量算法,避免了先验知识和状态空间的约束,拓宽了算法的应用范围。其次,针对聚焦对象Q学习算法的复杂度和稳定性问题,探讨了一种简化的聚焦对象Q学习算法(Simplified Object Focused Q-learning,SOF-Q),通过采用新的控制策略来规避忽视状态空间带来的风险,仿真结果表明,SOF-Q算法在计算量和收敛稳定性上都有一定程度的改善。最后,针对OF-Q和SOF-Q中的控制错觉问题,基于Dyna架构改进了聚焦对象Q学习算法,通过将Dyna架构与聚焦对象的马尔科夫决策过程相结合来进行全局Q值的估计,利用了两者在状态空间探索利用上的优势,仿真结...
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
马尔科夫决策过程中agent与环境的互动[3]
规划过程
图 2.3 学习、规划以及动作之间的关系[3] 中所有的过程,规划、动作、模型学习以及直采样式单步表格 Q 规划方法。直接强化学习是基于表格的,并且假定为确定环境。每次发生
本文编号:3090621
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
马尔科夫决策过程中agent与环境的互动[3]
规划过程
图 2.3 学习、规划以及动作之间的关系[3] 中所有的过程,规划、动作、模型学习以及直采样式单步表格 Q 规划方法。直接强化学习是基于表格的,并且假定为确定环境。每次发生
本文编号:3090621
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3090621.html