深度强化学习理论及其应用综述

发布时间：2021-09-22 23:44

　　一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足.面对这些问题,研究者们提出各种各样的解决方法,新的理论进一步推动深度强化学习的发展,在弥补缺陷的同时扩展强化学习的研究领域,延伸出模仿学习、分层强化学习、元学习等新的研究方向.文中从深度强化学习的理论、困难、应用及发展前景等方面对其进行探讨.

【文章来源】：模式识别与人工智能. 2019,32(01)北大核心CSCD

【文章页数】：15 页

【部分图文】：

深度强化学习理论及其应用综述

马尔科夫决策过程Fig．1Markovdecisionprocess

过程图,过程,状态转移概率,轨迹规划

决策的最终目标是在抵达目标状态的同时实现累积奖励最大化．图1马尔科夫决策过程Fig．1Markovdecisionprocess在强化学习过程中，决策的主体称为智能体(Agent)．智能体首先需要对其所处的状态进行观测，并根据观测结果(Observation)进行决策，采取相应行动．该行动一方面与环境(Environment)发生交互，环境以奖励的形式对智能体的行动给出相应的反馈;另一方面，该行动改变智能体的状态．一个循环结束后，智能体开始新一轮的观测，直到智能体进入终止状态，此时一次完整的迭代结束，如图2所示．智能体将此次迭代中的所有状态及其相应的动作以状态－动作序列的形式记录下来，生成轨迹(Trajectory):τ={st，at，st+1，at+1，…}．同时统计每一步的即时回报，计算此次迭代中获得的累计回报Gt，将这些信息作为策略更新时的训练样本．智能体采取行动依据的策略使用函数π(as)表示，智能体学习的目标就是优化这个策略函数．根据优化对象的不同，强化学习方法可分为策略搜索方法(PolicySearch)和值函数方法(ValueFunction)．强化学习过程中的状态转移概率又称为系统动态(Dynamics)、转移动态(TransitionDynamics)或环境模型，使用Pss'表示:Pss'=P(st+1=s'st=s，at)．根据状态转移概率是否已知，可将强化学习方法分为基于模型(ModelBased)的强化学习方法和免模型(ModelFree)的强化学习方法［15］．图2强化学习过程Fig．2Ｒeinforcementlearningprocess早期强化学习中的一个经典问题是轨迹规划问题．轨迹规划问题的目标是训练程序在给定初始?

本文编号：3404593

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3404593.html

上一篇：基于AHLO与K均值聚类的图像分割算法
下一篇：基于不平衡力的边坡临界滑面搜索

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|