基于深度强化学习的无人艇控制研究
发布时间:2021-03-03 03:23
论文以水面无人艇为切入点,利用深度强化学习技术,结合无人艇的数学模型,分析并设计环境的状态空间、动作空间和奖励。通过智能控制器与环境交互生成训练样本,训练网络以实现无人艇的运动控制。通过试验仿真验证,训练后的网络能够很好地对无人艇进行控制,相对于传统的PID控制算法在稳定性以及抗干扰能力上具有一定的优势。
【文章来源】:中国造船. 2020,61(S1)北大核心
【文章页数】:7 页
【部分图文】:
强化学习的基本逻辑结构框图环境St+1
61卷增刊1李宝安:基于深度强化学习的无人艇控制研究15从而达到对智能体自身很好的控制效果[4]。强化学习中的智能体经过决策后,产生一个动作,并把这个动作作用到环境中,环境会给予智能体一个即时的奖励值,这个奖励值表明智能体在执行动作改变了环境状态后此时环境的满意程度[5]。强化学习基本结构如图1所示。智能体环境状态St动作At奖励RtSt+1Rt+1图1强化学习的基本逻辑结构框图考虑到无人艇运动控制问题的输入空间和输出空间均为连续的,所以在本文的研究中,采用了适用于连续输入、输出空间的Actor-Critic(AC)框架下的深度确定性策略梯度(deepdeterministicpolicygradient,DDPG)算法。AC算法,流程的框架如图2所示。ActoraupdaterEnvCriticsa图2Actor-Critic算法流程图在DDPG算法中,将训练过程中的样本依次存储在Replaymemory中,从中随机选择一定minibatch量的样本进行训练[6],ActorNet接受从Replaymemory中的抽取的样本状态ts,根据策略函数πaπ(s|),得到此时刻策略函数认为的最优动作ta,该动作作用于环境得到下一时刻状态t1s,CriticNet则同时接受此时刻状态ts和动作ta,把下一时刻的状态t1s输入目标网络TargetNet,得到目标期望值11(,|)QttrQsa,目标期望值与当前期望值的平方差即为CriticNet的损失函数,据此来更新CriticNet网络,而ActorNet网络则依靠11(,|)QttrQsa对于π的期望梯度来更新参数。DDPG算法的框架由图3所示。
18中国造船学术论文经过一系列试验考核,在控制器试验训练过程中,对控制器进行每回合1000步、共计400回合的训练,得到收敛的控制器。控制器训练过程中的超参数设置如表1所示。表1超参数数值参数回合数每回合步数学习率记忆池容量每批次训练数量奖励衰减率数值4009000.0001200000640.9在状态跟随方面,训练完成的控制器跟随效果良好,图6为强化学习控制器的跟踪控制效果图。图中曲线显示了正弦舵角跟踪过程,虚线为被跟踪对象u=8sin(t/25),实线为响应曲线,从图中可以看出可以很好地进行跟踪。rollsin02.557.51012.51517.520时间/s7.552.50-2.5-5-7.5横摇/(°)图6深度强化学习控制器跟踪控制效果经过测试训练完成的控制器具有良好的抗干扰能力,在存在干扰的情况下,只在初期产生了震荡,随后很快回复稳态。在相当于2倍转动惯量大小的干扰力矩下,控制器的阶跃响应如图7所示,虚线表示无干扰的响应曲线,实线表示有干扰的响应曲线。00.511.522.53时间/s1086420横摇/(°)无干扰有干扰图7有干扰和无干扰下控制器的阶跃响应效果训练完成的控制器的阶跃响应曲线(KL)和PID控制的阶跃响应曲线(PID)[8]对比如图8所示:
【参考文献】:
期刊论文
[1]基于模糊控制的无人水面艇航迹跟踪控制[J]. 梅爱寒,李宝安,张法帅. 计测技术. 2018(01)
本文编号:3060500
【文章来源】:中国造船. 2020,61(S1)北大核心
【文章页数】:7 页
【部分图文】:
强化学习的基本逻辑结构框图环境St+1
61卷增刊1李宝安:基于深度强化学习的无人艇控制研究15从而达到对智能体自身很好的控制效果[4]。强化学习中的智能体经过决策后,产生一个动作,并把这个动作作用到环境中,环境会给予智能体一个即时的奖励值,这个奖励值表明智能体在执行动作改变了环境状态后此时环境的满意程度[5]。强化学习基本结构如图1所示。智能体环境状态St动作At奖励RtSt+1Rt+1图1强化学习的基本逻辑结构框图考虑到无人艇运动控制问题的输入空间和输出空间均为连续的,所以在本文的研究中,采用了适用于连续输入、输出空间的Actor-Critic(AC)框架下的深度确定性策略梯度(deepdeterministicpolicygradient,DDPG)算法。AC算法,流程的框架如图2所示。ActoraupdaterEnvCriticsa图2Actor-Critic算法流程图在DDPG算法中,将训练过程中的样本依次存储在Replaymemory中,从中随机选择一定minibatch量的样本进行训练[6],ActorNet接受从Replaymemory中的抽取的样本状态ts,根据策略函数πaπ(s|),得到此时刻策略函数认为的最优动作ta,该动作作用于环境得到下一时刻状态t1s,CriticNet则同时接受此时刻状态ts和动作ta,把下一时刻的状态t1s输入目标网络TargetNet,得到目标期望值11(,|)QttrQsa,目标期望值与当前期望值的平方差即为CriticNet的损失函数,据此来更新CriticNet网络,而ActorNet网络则依靠11(,|)QttrQsa对于π的期望梯度来更新参数。DDPG算法的框架由图3所示。
18中国造船学术论文经过一系列试验考核,在控制器试验训练过程中,对控制器进行每回合1000步、共计400回合的训练,得到收敛的控制器。控制器训练过程中的超参数设置如表1所示。表1超参数数值参数回合数每回合步数学习率记忆池容量每批次训练数量奖励衰减率数值4009000.0001200000640.9在状态跟随方面,训练完成的控制器跟随效果良好,图6为强化学习控制器的跟踪控制效果图。图中曲线显示了正弦舵角跟踪过程,虚线为被跟踪对象u=8sin(t/25),实线为响应曲线,从图中可以看出可以很好地进行跟踪。rollsin02.557.51012.51517.520时间/s7.552.50-2.5-5-7.5横摇/(°)图6深度强化学习控制器跟踪控制效果经过测试训练完成的控制器具有良好的抗干扰能力,在存在干扰的情况下,只在初期产生了震荡,随后很快回复稳态。在相当于2倍转动惯量大小的干扰力矩下,控制器的阶跃响应如图7所示,虚线表示无干扰的响应曲线,实线表示有干扰的响应曲线。00.511.522.53时间/s1086420横摇/(°)无干扰有干扰图7有干扰和无干扰下控制器的阶跃响应效果训练完成的控制器的阶跃响应曲线(KL)和PID控制的阶跃响应曲线(PID)[8]对比如图8所示:
【参考文献】:
期刊论文
[1]基于模糊控制的无人水面艇航迹跟踪控制[J]. 梅爱寒,李宝安,张法帅. 计测技术. 2018(01)
本文编号:3060500
本文链接:https://www.wllwen.com/kejilunwen/chuanbolw/3060500.html