行为树在自动驾驶行为规划策略中的应用研究
发布时间:2021-08-12 15:48
自动驾驶技术致力于解决交通拥堵并减少交通事故,近年来发展迅速。其中一个关键的开放问题是,根据周围交通状况选择有效驾驶行为的行为规划策略。目前的大量技术实现都以有限状态机作为全场景的整体策略模型,但是有限状态机内部模块之间存在强耦合,需要专业知识手动设计,步骤繁琐,不利于更新和维护。而最新的分场景研究方法则往往以单个强化学习智能体面向整个场景进行训练,存在状态空间维度高,训练难度高,基于神经网络的策略无安全保障等问题。基于此,本文提出使用模块化程度更高、可扩展性更强的行为树模型代替有限状态机作为行为规划策略的主模型。行为树的结构与子节点设计结合遗传编程算法和强化学习算法,以适应不同场景的策略规划需求。具体而言,本文的主要工作内容有:1)在CARLA模拟器中构建包含行人和其他障碍车辆的3种不同交通场景——带有信号灯的十字交叉路口、多车道直行路段和环岛路段,并建立行为树策略所需的基本条件节点和动作节点;2)通过分析行为树的冗余节点,规范化行为树的结构,以缩小遗传编程的搜索空间,并在此基础上设计实现加入了dropout遗传操作和哈希集合的遗传编程算法;3)设计并训练加入了深度Q学习(Deep ...
【文章来源】:兰州大学甘肃省 211工程院校 985工程院校 教育部直属院校
【文章页数】:91 页
【学位级别】:硕士
【部分图文】:
000年至2016年车祸死亡人数(每百万人)与死亡率[2]
兰州大学硕士学位论文基于行为树的自动驾驶行为规划策略研究2自动驾驶的技术栈主要由环境感知、地图定位、规划决策和控制四部分组成[3],如图1-2所示。地图模块分为高精度地图和定位两部分:高精度地图负责离线构建自动驾驶车辆行驶环境的静态地图信息,包括车道线坐标、每条车道的方向、允许转向的信息、交通标志、红绿灯坐标等;定位则是通过GNSS(GlobalNavigationSatelliteSystem,GNSS)、IMU(InertialMeasurementUnit,IMU)等传感器确定车辆在世界坐标系以及本地高精度地图坐标系当中的位置、朝向和运动状态。环境感知模块根据激光雷达、毫米波雷达、摄像头等传感器的实时输入计算出周围环境其他不包含在高精度地图中的动态车辆、行人与障碍物信息。规划决策模块在用户设定好车辆预计到达的目标地点的基础上,通过与目前常见导航系统类似的算法得出车辆在城市路网中的宏观路径规划,再结合周围实时的动态车辆和行人信息,能够生成车辆在短期内计划行驶的轨迹。最后,控制模块通过车辆运动学和动力学模型计算出方向盘、油门、刹车等部件的控制量,令车辆尽可能严格按照短期的轨迹规划行驶。图1-2自动驾驶系统模块结构图[3]其中,规划决策模块又可以分成三部分:任务规划、行为规划和轨迹规划。任务规划主要负责在路网中给出从自动驾驶车辆(下文简称主车)当前位置到目标点的一条预计到达成本最小(耗时最少或距离最短)的路径,行为规划则根据周围的交通状况生成主车当前最佳的驾驶行为,并最终由轨迹规划器根据抽象化的驾驶行为指令生成主车能够实际通过的具体路径。从任务规划到轨迹规划是一个从高级指令到低级指令,从抽象到具体的过渡过程。
用策略来应对所有交通场景在目前还不切实际,而根据不同交通场景分解成许多子问题进行求解则更加可行。行为规划软件模块在实际运行时也会依据当前所处的不同交通场景选择调用不同的子策略来执行行为规划任务。行为规划策略基于全局规划路径、静态地图信息以及周围环境的动态路况,规划出当前应该执行的驾驶行为。这里的驾驶行为并不是最终传递到车辆底盘的方向盘转角、油门开度、刹车开度等控制量,而是如加速、减速、变道、跟车等抽象驾驶行为指令,由下层的轨迹规划模块负责解释执行和实现。行为规划策略的输入与输出如图1-3所示。图1-3行为规划策略的输入与输出[3][5]
【参考文献】:
期刊论文
[1]行为树技术的研究进展与应用[J]. 刘瑞峰,王家胜,张灏龙,田梦凡. 计算机与现代化. 2020(02)
[2]中国100个城市交通拥堵的空间格局研究——基于高德交通拥堵大数据的分析[J]. 王卉彤,刘传明. 山东财经大学学报. 2020(01)
[3]智能车辆驾驶行为决策方法研究[J]. 赵志成,华一丁,王文扬,陈正. 现代信息科技. 2019(24)
[4]基于值函数和策略梯度的深度强化学习综述[J]. 刘建伟,高峰,罗雄麟. 计算机学报. 2019(06)
[5]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进. 计算机学报. 2018(01)
[6]深度强化学习综述:兼论计算机围棋的发展[J]. 赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红. 控制理论与应用. 2016(06)
[7]基于有限状态机的差动转向无人车整车控制策略设计[J]. 熊璐,黄少帅,王龙祥,杨光兴. 制造业自动化. 2015(19)
[8]基于有限状态机的智能车辆交叉口行为预测与控制[J]. 熊光明,李勇,王诗源. 北京理工大学学报. 2015(01)
[9]遗传编程实现的研究[J]. 查志琴,高波,郑成增. 计算机应用. 2003(07)
博士论文
[1]城区不确定环境下无人驾驶车辆行为决策方法研究[D]. 耿新力.中国科学技术大学 2017
[2]城市环境下无人驾驶车辆决策系统研究[D]. 陈佳佳.中国科学技术大学 2014
硕士论文
[1]基于深度Q网络算法与模型的研究[D]. 翟建伟.苏州大学 2017
本文编号:3338606
【文章来源】:兰州大学甘肃省 211工程院校 985工程院校 教育部直属院校
【文章页数】:91 页
【学位级别】:硕士
【部分图文】:
000年至2016年车祸死亡人数(每百万人)与死亡率[2]
兰州大学硕士学位论文基于行为树的自动驾驶行为规划策略研究2自动驾驶的技术栈主要由环境感知、地图定位、规划决策和控制四部分组成[3],如图1-2所示。地图模块分为高精度地图和定位两部分:高精度地图负责离线构建自动驾驶车辆行驶环境的静态地图信息,包括车道线坐标、每条车道的方向、允许转向的信息、交通标志、红绿灯坐标等;定位则是通过GNSS(GlobalNavigationSatelliteSystem,GNSS)、IMU(InertialMeasurementUnit,IMU)等传感器确定车辆在世界坐标系以及本地高精度地图坐标系当中的位置、朝向和运动状态。环境感知模块根据激光雷达、毫米波雷达、摄像头等传感器的实时输入计算出周围环境其他不包含在高精度地图中的动态车辆、行人与障碍物信息。规划决策模块在用户设定好车辆预计到达的目标地点的基础上,通过与目前常见导航系统类似的算法得出车辆在城市路网中的宏观路径规划,再结合周围实时的动态车辆和行人信息,能够生成车辆在短期内计划行驶的轨迹。最后,控制模块通过车辆运动学和动力学模型计算出方向盘、油门、刹车等部件的控制量,令车辆尽可能严格按照短期的轨迹规划行驶。图1-2自动驾驶系统模块结构图[3]其中,规划决策模块又可以分成三部分:任务规划、行为规划和轨迹规划。任务规划主要负责在路网中给出从自动驾驶车辆(下文简称主车)当前位置到目标点的一条预计到达成本最小(耗时最少或距离最短)的路径,行为规划则根据周围的交通状况生成主车当前最佳的驾驶行为,并最终由轨迹规划器根据抽象化的驾驶行为指令生成主车能够实际通过的具体路径。从任务规划到轨迹规划是一个从高级指令到低级指令,从抽象到具体的过渡过程。
用策略来应对所有交通场景在目前还不切实际,而根据不同交通场景分解成许多子问题进行求解则更加可行。行为规划软件模块在实际运行时也会依据当前所处的不同交通场景选择调用不同的子策略来执行行为规划任务。行为规划策略基于全局规划路径、静态地图信息以及周围环境的动态路况,规划出当前应该执行的驾驶行为。这里的驾驶行为并不是最终传递到车辆底盘的方向盘转角、油门开度、刹车开度等控制量,而是如加速、减速、变道、跟车等抽象驾驶行为指令,由下层的轨迹规划模块负责解释执行和实现。行为规划策略的输入与输出如图1-3所示。图1-3行为规划策略的输入与输出[3][5]
【参考文献】:
期刊论文
[1]行为树技术的研究进展与应用[J]. 刘瑞峰,王家胜,张灏龙,田梦凡. 计算机与现代化. 2020(02)
[2]中国100个城市交通拥堵的空间格局研究——基于高德交通拥堵大数据的分析[J]. 王卉彤,刘传明. 山东财经大学学报. 2020(01)
[3]智能车辆驾驶行为决策方法研究[J]. 赵志成,华一丁,王文扬,陈正. 现代信息科技. 2019(24)
[4]基于值函数和策略梯度的深度强化学习综述[J]. 刘建伟,高峰,罗雄麟. 计算机学报. 2019(06)
[5]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进. 计算机学报. 2018(01)
[6]深度强化学习综述:兼论计算机围棋的发展[J]. 赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红. 控制理论与应用. 2016(06)
[7]基于有限状态机的差动转向无人车整车控制策略设计[J]. 熊璐,黄少帅,王龙祥,杨光兴. 制造业自动化. 2015(19)
[8]基于有限状态机的智能车辆交叉口行为预测与控制[J]. 熊光明,李勇,王诗源. 北京理工大学学报. 2015(01)
[9]遗传编程实现的研究[J]. 查志琴,高波,郑成增. 计算机应用. 2003(07)
博士论文
[1]城区不确定环境下无人驾驶车辆行为决策方法研究[D]. 耿新力.中国科学技术大学 2017
[2]城市环境下无人驾驶车辆决策系统研究[D]. 陈佳佳.中国科学技术大学 2014
硕士论文
[1]基于深度Q网络算法与模型的研究[D]. 翟建伟.苏州大学 2017
本文编号:3338606
本文链接:https://www.wllwen.com/kejilunwen/qiche/3338606.html