聚焦对象的强化学习算法研究

发布时间：2021-03-20 07:46

　　强化学习是机器学习领域的一个重要分支,它采用学习与智能理论的一个基本想法——“通过与环境互动进行学习”来求解序列决策问题。由于其独特的“试错式（trialand-error）”学习机制,近年来得到越来越多研究者的关注。本文尝试从拓宽算法应用范围、改善学习效率等角度对强化学习算法进行研究,主要工作和创新如下:首先,针对不同马尔科夫决策过程（Markov Decision Process,MDP）中的相似度量问题,探讨了一种改进的相似度量算法,避免了先验知识和状态空间的约束,拓宽了算法的应用范围。其次,针对聚焦对象Q学习算法的复杂度和稳定性问题,探讨了一种简化的聚焦对象Q学习算法（Simplified Object Focused Q-learning,SOF-Q）,通过采用新的控制策略来规避忽视状态空间带来的风险,仿真结果表明,SOF-Q算法在计算量和收敛稳定性上都有一定程度的改善。最后,针对OF-Q和SOF-Q中的控制错觉问题,基于Dyna架构改进了聚焦对象Q学习算法,通过将Dyna架构与聚焦对象的马尔科夫决策过程相结合来进行全局Q值的估计,利用了两者在状态空间探索利用上的优势,仿真结...

【文章来源】：东南大学江苏省 211工程院校 985工程院校教育部直属院校

【文章页数】：53 页

【学位级别】：硕士

【部分图文】：

聚焦对象的强化学习算法研究

马尔科夫决策过程中agent与环境的互动[3]

规划过程,优策略,空间规划,最优策略

规划过程

采样式,规划方法,单步,表格

图 2.3 学习、规划以及动作之间的关系[3] 中所有的过程，规划、动作、模型学习以及直采样式单步表格 Q 规划方法。直接强化学习是基于表格的，并且假定为确定环境。每次发生

本文编号：3090621

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3090621.html

上一篇：面向无人机通信系统的功率分配关键技术研究
下一篇：基于DEA算法的VTS性能评估

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|