基于深度强化学习的虚拟无人车控制研究
发布时间:2020-05-05 19:37
【摘要】:无人车控制作为自动驾驶系统最底层的模块,对于自动驾驶的安全性、舒适性至关重要。主流的无人车控制采用基于模型的方法,使用控制理论,需要手工设计控制器的参数。基于模型的控制方法的己经被广泛地研究,其优点是具有可解释性,但是对于复杂的道路环境,控制器的参数将十分复杂。除此之外,传统控制器不具备自适应学习能力,即使存在一些自适应参数调节方法,也往往会受限于模型的表达能力,对复杂道路环境不鲁棒。针对以上问题,本文做了两项工作提升无人车控制的性能:第一,使用深度强化学习代替传统控制方法。本文使用免模型、自学习的深度确定性策略梯度(DDPG)实现虚拟无人车的横向和纵向联合控制。DDPG是一种流行的、用于高维感知输入、连续控制输出的深度强化学习算法,它通过试错寻找最优控制策略,不需要车辆动力学模型以及环境模型;DDPG通过与环境交互进行学习,对环境变化更鲁棒。本文在TORCS驾驶模拟器中验证了基于DDPG的无人车横向和纵向联合控制,控制误差在合理范围之内。第二,由于深度强化学习需要大量试错,某些试错行为可能是危险的,特别在无人车控制任务中。本文提出使用少量先验知识加速深度强化学习的训练,减少试错次数。具体做法是将由少量先验知识设计的监督器指导DDPG的训练。这样的算法被称为监督式深度确定性策略梯度(Supervised DDPG)。本文在TORCS模拟器中比较了传统控制方法(本文使用反馈控制器)、DDPG、Supervised DDPG三种模型在无人车横向控制任务中的表现,实验结果显示,Supervised DDPG的控制性能比传统控制方法更加精确,收敛速度相比于DDPG大大提升,减少了试错次数。
【图文】:
一条带有时间信息的轨迹曲线,用于底层控制模块对车的实际控制。反馈控制是最底层逡逑的模块,无人车的反馈控制和一般车辆的反馈控制并没有本质区别。二者都是基于一定逡逑的期望轨迹,计算当前车辆的姿态和期望轨迹之间的误差不断地进行反馈控制。如图2.1逡逑所示,这些模块相互耦合,,共同构成了整个无人驾驶系统。逡逑感知逦;邋路由寻经逡逑!感知物体信息丨逡逑|位置/速度/朝向:逦\m]Lane的丨】.列逡逑预测逦¥测外迹丨邋>邋行为决策逡逑宏观指令逡逑:、、逦v逡逑I邋、▲vR逡逑一地面定J邋--T硕鞴婊义稀觥鲥义希旒5阄
本文编号:2650650
【图文】:
一条带有时间信息的轨迹曲线,用于底层控制模块对车的实际控制。反馈控制是最底层逡逑的模块,无人车的反馈控制和一般车辆的反馈控制并没有本质区别。二者都是基于一定逡逑的期望轨迹,计算当前车辆的姿态和期望轨迹之间的误差不断地进行反馈控制。如图2.1逡逑所示,这些模块相互耦合,,共同构成了整个无人驾驶系统。逡逑感知逦;邋路由寻经逡逑!感知物体信息丨逡逑|位置/速度/朝向:逦\m]Lane的丨】.列逡逑预测逦¥测外迹丨邋>邋行为决策逡逑宏观指令逡逑:、、逦v逡逑I邋、▲vR逡逑一地面定J邋--T硕鞴婊义稀觥鲥义希旒5阄
本文编号:2650650
本文链接:https://www.wllwen.com/kejilunwen/qiche/2650650.html