面向信息物理系统的高效深度强化学习算法
发布时间:2021-11-08 04:10
强化学习算法是机器学习的一个重要分支,主要研究如何利用智能体与外界环境的交互数据学习完成特定任务的控制策略。由于强化学习算法要求模型能够表征高度复杂的策略,因此利用表现力极强的深度神经网络作为策略表征的深度强化学习算法逐渐成为主流。虽然深度神经网络较大的参数空间使得深度强化学习算法掌握高度复杂的技能成为可能,但是这也使其学习过程需要大量的交互数据才能够达到良好的学习效果。深度强化学习算法的采样低效问题在信息物理系统中尤为严重。在信息物理系统中,智能体与环境的交互速度十分缓慢。同时,在训练过程中,次优的策略所做出的随机性较大的动作可能损坏机体。因此,信息物理系统中的交互数据是十分昂贵的。文主要研究如何提高强化学习算法的采样效率,进而减少强化学习算法对交互数据的高度依赖。文将深度强化学习算法与传统的最优控制理论结合,在避免传统方法的局限性的同时,提高深度强化学习算法的采样效率。具体而言,文从提出新的初始化策略与目标任务分解这两个思路来尝试得到高效的深度强化学习算法。在第一个工作中,我们提出一种基于模型预测控制器的初始化策略。模型预测控制器质上是一个有约束的最优化问题,可以被理解为一个隐式的...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
状态空间的划分
a) Pendulum b) Quadcopter Navigation图 3-3 DDPG, MPC, SP+DDPG, PLCBC, DPPO 的性能(y 轴表示累积奖励)相对于迭代次数(x 轴表示迭代次数) 的变化情况。对于倒立摆实验环境,我们将最大训练迭代次数设置为 M = 200,每一次迭代的最大训练步数为 T = 200,性能指标为 T 步内的累积奖励。图. 3-3 显示了每一次迭代算法所获得的累积奖励。从图中可以看出, PLCBC 在没有进行任何训练的情况下就可以达到较好的控制效果,并且控制效果随着迭代次数逐步提高。相比之下,DDPG 必须经历很多次失败,并且需要很多次的迭代才能够收敛。除此之外,如图. 3-3(b) 所示,DDPG 倾向于收敛到较差的局部最优解。作为一种常用的技巧,SP+DDPG 利用 MPC 提供的训练样 对神经网络进行预训练。但是,在这个实验环境中 SP+DDPG 无法显著提高 DDPG 的训练效率,其原因是监督学习难以泛化到在训练过程中没有遇到过的状态,这个问题在连续控制问题中尤为严重
a) Pendulum b) Quadcopter Navigation-3 DDPG, MPC, SP+DDPG, PLCBC, DPPO 的性能(y 轴表示累积奖励)相对于迭代(x 轴表示迭代次数) 的变化情况。对于倒立摆实验环境,我们将最大训练迭代次数设置为 M = 200,每一最大训练步数为 T = 200,性能指标为 T 步内的累积奖励。图. 3-3 显示迭代算法所获得的累积奖励。从图中可以看出, PLCBC 在没有进行任何况下就可以达到较好的控制效果,并且控制效果随着迭代次数逐步提高下,DDPG 必须经历很多次失败,并且需要很多次的迭代才能够收敛。除如图. 3-3(b) 所示,DDPG 倾向于收敛到较差的局部最优解。作为一种常,SP+DDPG 利用 MPC 提供的训练样 对神经网络进行预训练。但是,验环境中 SP+DDPG 无法显著提高 DDPG 的训练效率,其原因是监督学化到在训练过程中没有遇到过的状态,这个问题在连续控制问题中尤为
本文编号:3482976
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
状态空间的划分
a) Pendulum b) Quadcopter Navigation图 3-3 DDPG, MPC, SP+DDPG, PLCBC, DPPO 的性能(y 轴表示累积奖励)相对于迭代次数(x 轴表示迭代次数) 的变化情况。对于倒立摆实验环境,我们将最大训练迭代次数设置为 M = 200,每一次迭代的最大训练步数为 T = 200,性能指标为 T 步内的累积奖励。图. 3-3 显示了每一次迭代算法所获得的累积奖励。从图中可以看出, PLCBC 在没有进行任何训练的情况下就可以达到较好的控制效果,并且控制效果随着迭代次数逐步提高。相比之下,DDPG 必须经历很多次失败,并且需要很多次的迭代才能够收敛。除此之外,如图. 3-3(b) 所示,DDPG 倾向于收敛到较差的局部最优解。作为一种常用的技巧,SP+DDPG 利用 MPC 提供的训练样 对神经网络进行预训练。但是,在这个实验环境中 SP+DDPG 无法显著提高 DDPG 的训练效率,其原因是监督学习难以泛化到在训练过程中没有遇到过的状态,这个问题在连续控制问题中尤为严重
a) Pendulum b) Quadcopter Navigation-3 DDPG, MPC, SP+DDPG, PLCBC, DPPO 的性能(y 轴表示累积奖励)相对于迭代(x 轴表示迭代次数) 的变化情况。对于倒立摆实验环境,我们将最大训练迭代次数设置为 M = 200,每一最大训练步数为 T = 200,性能指标为 T 步内的累积奖励。图. 3-3 显示迭代算法所获得的累积奖励。从图中可以看出, PLCBC 在没有进行任何况下就可以达到较好的控制效果,并且控制效果随着迭代次数逐步提高下,DDPG 必须经历很多次失败,并且需要很多次的迭代才能够收敛。除如图. 3-3(b) 所示,DDPG 倾向于收敛到较差的局部最优解。作为一种常,SP+DDPG 利用 MPC 提供的训练样 对神经网络进行预训练。但是,验环境中 SP+DDPG 无法显著提高 DDPG 的训练效率,其原因是监督学化到在训练过程中没有遇到过的状态,这个问题在连续控制问题中尤为
本文编号:3482976
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3482976.html