基于强化学习的自动泊车运动规划
发布时间:2022-01-05 21:12
自动泊车运动规划需满足安全性、舒适性、最终泊车位姿等多目标最优。提出一种基于模型的强化学习运动规划方法,以最大限度摆脱人类泊车经验,并综合考虑上述需求。建立了用于逼近实车的仿真模型;构建了基于加速度和距离控制的纵向策略;基于蒙特卡洛树搜索和神经网络,结合构建的纵向策略强化学习,最终收敛得到最优的泊车策略,迭代过程中的奖励函数综合考虑安全性、舒适性及最终泊车位姿等因素;通过实车实验对获得的泊车策略进行了验证。结果表明,规划策略能够满足对安全性、舒适性、最终泊车位姿等多目标最优的需求。
【文章来源】:同济大学学报(自然科学版). 2019,47(S1)北大核心EICSCD
【文章页数】:5 页
【部分图文】:
平行泊车库位模型
泊车策略强化学习系统架构图见图2。每次数据迭代分3个阶段:(1)产生数据阶段,基于MCTS(Monte Carlo tree search)和训练得到的神经网络,结合车速策略控制车辆模型,针对不同工况(不同库位及起始位姿)仿真,产生泊车数据。神经网络为MCTS提供不同转角的概率分布,引导搜索过程。模拟过程中,MCTS兼顾神经网络的引导与一定的随机探索。(2)评价数据阶段,利用构建的奖励函数评价泊车数据质量。奖励函数综合考虑安全性、舒适性以及最终泊车位姿等因素,最终,筛选出各仿真工况下泊车质量最佳的数据。(3)更新网络阶段,利用筛选的质量最优的数据更新网络参数。该更新的网络又用到下一次迭代产生数据中,从而为MCTS提供更强的搜索引导。这样使得产生的泊车数据质量不断提升,学习到的泊车策略不断增强,最终收敛到最优,从而达到自主学习的目的。
安全是对泊车系统最基本的要求。因此,安全性在奖励函数中应该被赋予足够的权重。图4为平行泊车场景示意图,入库过程中,组成库位边界的前车左侧和后侧以及两条边的交点(即左后角点)为容易发生碰撞的区域。设置安全距离dsafe,即图4中曲线所包围的区域为碰撞区域。若车辆进入该区域,即赋予很大的惩罚值;否则,该项值为0。3.1.2 入库最终位姿指标
【参考文献】:
期刊论文
[1]自主泊车系统研究综述[J]. 石天聪,刘雪,余政涛. 汽车实用技术. 2021(09)
[2]基于改进深度强化学习的自动泊车路径规划[J]. 陈鑫,兰凤崇,陈吉清. 重庆理工大学学报(自然科学). 2021(07)
博士论文
[1]自主泊车的最优轨迹规划与跟踪控制研究[D]. 吴冰.合肥工业大学 2021
硕士论文
[1]基于多信息融合的自动泊车控制系统研究[D]. 曾虹钧.西安科技大学 2020
本文编号:3571084
【文章来源】:同济大学学报(自然科学版). 2019,47(S1)北大核心EICSCD
【文章页数】:5 页
【部分图文】:
平行泊车库位模型
泊车策略强化学习系统架构图见图2。每次数据迭代分3个阶段:(1)产生数据阶段,基于MCTS(Monte Carlo tree search)和训练得到的神经网络,结合车速策略控制车辆模型,针对不同工况(不同库位及起始位姿)仿真,产生泊车数据。神经网络为MCTS提供不同转角的概率分布,引导搜索过程。模拟过程中,MCTS兼顾神经网络的引导与一定的随机探索。(2)评价数据阶段,利用构建的奖励函数评价泊车数据质量。奖励函数综合考虑安全性、舒适性以及最终泊车位姿等因素,最终,筛选出各仿真工况下泊车质量最佳的数据。(3)更新网络阶段,利用筛选的质量最优的数据更新网络参数。该更新的网络又用到下一次迭代产生数据中,从而为MCTS提供更强的搜索引导。这样使得产生的泊车数据质量不断提升,学习到的泊车策略不断增强,最终收敛到最优,从而达到自主学习的目的。
安全是对泊车系统最基本的要求。因此,安全性在奖励函数中应该被赋予足够的权重。图4为平行泊车场景示意图,入库过程中,组成库位边界的前车左侧和后侧以及两条边的交点(即左后角点)为容易发生碰撞的区域。设置安全距离dsafe,即图4中曲线所包围的区域为碰撞区域。若车辆进入该区域,即赋予很大的惩罚值;否则,该项值为0。3.1.2 入库最终位姿指标
【参考文献】:
期刊论文
[1]自主泊车系统研究综述[J]. 石天聪,刘雪,余政涛. 汽车实用技术. 2021(09)
[2]基于改进深度强化学习的自动泊车路径规划[J]. 陈鑫,兰凤崇,陈吉清. 重庆理工大学学报(自然科学). 2021(07)
博士论文
[1]自主泊车的最优轨迹规划与跟踪控制研究[D]. 吴冰.合肥工业大学 2021
硕士论文
[1]基于多信息融合的自动泊车控制系统研究[D]. 曾虹钧.西安科技大学 2020
本文编号:3571084
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3571084.html