基于深度强化学习的虚拟无人车控制研究

发布时间：2020-05-05 19:37

【摘要】：无人车控制作为自动驾驶系统最底层的模块,对于自动驾驶的安全性、舒适性至关重要。主流的无人车控制采用基于模型的方法,使用控制理论,需要手工设计控制器的参数。基于模型的控制方法的己经被广泛地研究,其优点是具有可解释性,但是对于复杂的道路环境,控制器的参数将十分复杂。除此之外,传统控制器不具备自适应学习能力,即使存在一些自适应参数调节方法,也往往会受限于模型的表达能力,对复杂道路环境不鲁棒。针对以上问题,本文做了两项工作提升无人车控制的性能:第一,使用深度强化学习代替传统控制方法。本文使用免模型、自学习的深度确定性策略梯度(DDPG)实现虚拟无人车的横向和纵向联合控制。DDPG是一种流行的、用于高维感知输入、连续控制输出的深度强化学习算法,它通过试错寻找最优控制策略,不需要车辆动力学模型以及环境模型;DDPG通过与环境交互进行学习,对环境变化更鲁棒。本文在TORCS驾驶模拟器中验证了基于DDPG的无人车横向和纵向联合控制,控制误差在合理范围之内。第二,由于深度强化学习需要大量试错,某些试错行为可能是危险的,特别在无人车控制任务中。本文提出使用少量先验知识加速深度强化学习的训练,减少试错次数。具体做法是将由少量先验知识设计的监督器指导DDPG的训练。这样的算法被称为监督式深度确定性策略梯度(Supervised DDPG)。本文在TORCS模拟器中比较了传统控制方法(本文使用反馈控制器)、DDPG、Supervised DDPG三种模型在无人车横向控制任务中的表现,实验结果显示,Supervised DDPG的控制性能比传统控制方法更加精确,收敛速度相比于DDPG大大提升,减少了试错次数。
【图文】：

控制系统图,软件系统,控制系统,模块

一条带有时间信息的轨迹曲线，用于底层控制模块对车的实际控制。反馈控制是最底层逡逑的模块，无人车的反馈控制和一般车辆的反馈控制并没有本质区别。二者都是基于一定逡逑的期望轨迹，计算当前车辆的姿态和期望轨迹之间的误差不断地进行反馈控制。如图２．１逡逑所示，这些模块相互耦合，，共同构成了整个无人驾驶系统。逡逑感知逦；邋路由寻经逡逑！感知物体信息丨逡逑｜位置／速度／朝向：逦＼ｍ］Ｌａｎｅ的丨】．列逡逑预测逦￥测外迹丨邋＞邋行为决策逡逑宏观指令逡逑：、、逦ｖ逡逑Ｉ邋、▲vR逡逑一地面定Ｊ邋－－T硕鞴婊义稀觥鲥义希旒５阄

本文编号：2650650

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/qiche/2650650.html

上一篇：基于机器视觉的前方车辆检测与测距研究
下一篇：基于雷达和机器视觉的前车检测预警技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|