回报函数驱动的高效探索研究

发布时间:2020-12-11 13:11
  探索与利用的均衡一直是强化学习研究的重点之一。探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其当前对于环境的认知来做出当前最优决策。强化学习通过与环境交互生成训练数据进而评估并更新所学策略,而非根据正确的策略指导学习过程,因此强化学习在学习过程中需要高效的探索。强化学习与环境交互获得回报,进而通过最大化累积回报来学习最优策略,因此环境中的回报函数直接影响强化学习的学习结果。当环境中回报稠密时,传统探索方法例如Optimistic Initial Values,Upper-Confidence-Bound Action Selection,Thompson Sampling等,通过衡量基于值函数的强化学习算法中值函数学习过程的不确定性,可极大提升算法的探索效率,且有充分的理论证明。但它们仅适用于离散状态空间,当状态空间很大甚至连续时,这些算法并不适用。当环境中回报稀疏时,强化学习算法与环境交互时难以获得正向回报,会导致性能低下。后视经验回放算法(Hindsight Experience Replay,HER)通过在每一回合结束时回放除原始目标状态之外的一部分新目标状态以... 

【文章来源】:山西大学山西省

【文章页数】:65 页

【学位级别】:硕士

【部分图文】:

回报函数驱动的高效探索研究


k值对算法的影响

算法,状态空间,环境


回报函数驱动的高效探索研究28(c)InvertedPendulum图3.5两种算法实验对比结果图表3.1为在各自最优参数下本算法与采用Tilecoding编码的Sarsa()算法回报、点数以及收敛所需回合数的比较。表3.1两种算法对比实验结果算法实验结果实验环境MountainCarCartPoleInvertedPendulumTilecoding5Sarsa()回报-13388-3.01点数400x5160000x58000x5收敛所需回合数45050080Tilecoding10Sarsa()回报-11360-0.68点数400x10160000x108000x10收敛所需回合数40050025Tilecoding20Sarsa()回报-14688-1.75点数400x20160000x208000x20收敛所需回合数330500100RMAX-KNN回报-83200-0.26点数2392201016收敛所需回合数2812512从表中可以看出,在回报方面,本算法在MountainCar、CartPole、InvertedPendulum环境下所得回报均大于对比算法所得回报,回报越高,则算法性能越好;在状态空间表示点数目方面,本算法在三个实验环境下达到实验目标所需状态空间表示点数目均远远小于对比算法,点数越少则算法空间复杂度越低;在收

流程图,目标状态,示例,环境


回报函数驱动的高效探索研究34图4.4多目标稀疏回报环境下原始HER的流程示例图图4.4中,假设状态空间介于0到10之间并且原始目标状态空间介于8到10之间,Agent旨在学习从初始状态0处到达原始目标状态空间的目标约束策略。图4.4(a)展示了当目标状态空间等同于状态空间时Agent对于不同[state,goal]应该执行的动作。Agent旨在学习合适的动作来从初始状态到达目标状态,如图4.4(d)所示。当用原始HER对数据进行处理时,回放生成的新目标状态大多处于0到8之间,之后Agent学习合适的动作来从初始状态到达0到8之间的目标状态,如图4.4(b)所示。Agent根据其到达与原始目标状态空间相近的目标状态时所采用的动作序列进而学习到达原始目标状态空间的策略。换言之,图4.4(d)中的策略是根据图4.4(b)和图4.4(d)之间的相似性从图4.4(b)泛化所得。但当原始目标状态空间难以到达时,原始HER回放生成的新目标状态将会局限于与原始目标状态空间距离较远的环境状态空间的某一特定子空间内,如图4.4(c)所示。此时,回放生成的新目标状态与原始目标状态关联性较差进而导致原始HER无法帮助Agent学习到达原始目标状态空间的目标约束策略。图4.5多阶段后视经验回放流程示意图本文所提多阶段后视经验回放算法通过形成一种比原始HER更加明确的课程学习形式来解决此问题。图4.5展示了多阶段后视经验回放算法的流程示意图。图4.5(a)和(d)与图4.4意义相同,不同之处在于多阶段后视经验回放算法从各阶段给定目标状态区域中采样得到每一阶段目标状态并在各阶段中利用HER回放生成新目标状态。通过这种方式Agent首先学习到达阶段0中介于0到3.3之间的目标状态,如图4.5(b)所示。之后Agent以同样方式学习到达阶段1中介于0到6.6之间目标状态,如图4.5(c)所示。最终Agent根据图4.5(


本文编号:2910588

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2910588.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户42451***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com