深度强化学习理论及其应用综述
发布时间:2021-09-22 23:44
一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足.面对这些问题,研究者们提出各种各样的解决方法,新的理论进一步推动深度强化学习的发展,在弥补缺陷的同时扩展强化学习的研究领域,延伸出模仿学习、分层强化学习、元学习等新的研究方向.文中从深度强化学习的理论、困难、应用及发展前景等方面对其进行探讨.
【文章来源】:模式识别与人工智能. 2019,32(01)北大核心CSCD
【文章页数】:15 页
【部分图文】:
马尔科夫决策过程Fig.1Markovdecisionprocess
决策的最终目标是在抵达目标状态的同时实现累积奖励最大化.图1马尔科夫决策过程Fig.1Markovdecisionprocess在强化学习过程中,决策的主体称为智能体(Agent).智能体首先需要对其所处的状态进行观测,并根据观测结果(Observation)进行决策,采取相应行动.该行动一方面与环境(Environment)发生交互,环境以奖励的形式对智能体的行动给出相应的反馈;另一方面,该行动改变智能体的状态.一个循环结束后,智能体开始新一轮的观测,直到智能体进入终止状态,此时一次完整的迭代结束,如图2所示.智能体将此次迭代中的所有状态及其相应的动作以状态-动作序列的形式记录下来,生成轨迹(Trajectory):τ={st,at,st+1,at+1,…}.同时统计每一步的即时回报,计算此次迭代中获得的累计回报Gt,将这些信息作为策略更新时的训练样本.智能体采取行动依据的策略使用函数π(as)表示,智能体学习的目标就是优化这个策略函数.根据优化对象的不同,强化学习方法可分为策略搜索方法(PolicySearch)和值函数方法(ValueFunction).强化学习过程中的状态转移概率又称为系统动态(Dynamics)、转移动态(TransitionDynamics)或环境模型,使用Pss'表示:Pss'=P(st+1=s'st=s,at).根据状态转移概率是否已知,可将强化学习方法分为基于模型(ModelBased)的强化学习方法和免模型(ModelFree)的强化学习方法[15].图2强化学习过程Fig.2Reinforcementlearningprocess早期强化学习中的一个经典问题是轨迹规划问题.轨迹规划问题的目标是训练程序在给定初始?
本文编号:3404593
【文章来源】:模式识别与人工智能. 2019,32(01)北大核心CSCD
【文章页数】:15 页
【部分图文】:
马尔科夫决策过程Fig.1Markovdecisionprocess
决策的最终目标是在抵达目标状态的同时实现累积奖励最大化.图1马尔科夫决策过程Fig.1Markovdecisionprocess在强化学习过程中,决策的主体称为智能体(Agent).智能体首先需要对其所处的状态进行观测,并根据观测结果(Observation)进行决策,采取相应行动.该行动一方面与环境(Environment)发生交互,环境以奖励的形式对智能体的行动给出相应的反馈;另一方面,该行动改变智能体的状态.一个循环结束后,智能体开始新一轮的观测,直到智能体进入终止状态,此时一次完整的迭代结束,如图2所示.智能体将此次迭代中的所有状态及其相应的动作以状态-动作序列的形式记录下来,生成轨迹(Trajectory):τ={st,at,st+1,at+1,…}.同时统计每一步的即时回报,计算此次迭代中获得的累计回报Gt,将这些信息作为策略更新时的训练样本.智能体采取行动依据的策略使用函数π(as)表示,智能体学习的目标就是优化这个策略函数.根据优化对象的不同,强化学习方法可分为策略搜索方法(PolicySearch)和值函数方法(ValueFunction).强化学习过程中的状态转移概率又称为系统动态(Dynamics)、转移动态(TransitionDynamics)或环境模型,使用Pss'表示:Pss'=P(st+1=s'st=s,at).根据状态转移概率是否已知,可将强化学习方法分为基于模型(ModelBased)的强化学习方法和免模型(ModelFree)的强化学习方法[15].图2强化学习过程Fig.2Reinforcementlearningprocess早期强化学习中的一个经典问题是轨迹规划问题.轨迹规划问题的目标是训练程序在给定初始?
本文编号:3404593
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3404593.html