基于虚拟仿真环境的自动驾驶策略学习
发布时间:2021-05-12 00:30
自动驾驶是人工智能研究的重要领域,对提高现实交通的安全性、效率性有着重大的意义。随着神经网络在计算机视觉、自然语言处理上的发展,越来越多的公司和研究机构开始研究深度学习和自动驾驶的结合。驾驶策略的学习是其中很重要的一个研究方向。传统的驾驶策略算法基于人工设计和数学建模,无法处理复杂的交通环境,不能满足自动驾驶的需要。本文的研究目的,是基于虚拟环境的条件下,训练得到更加智能的驾驶策略,在无人车训练平台中,作为对手车辆的驾驶策略,辅助真正的无人驾驶训练过程。本文的主要工作包括:基于驾驶的理论模型,搭建了一个用于强化学习的驾驶仿真环境;在驾驶仿真环境的基础上,提出了一种使用深度强化学习得到驾驶策略的算法框架;比较了不同的深度强化学习结构对驾驶策略学习的影响,得到的驾驶策略在多项交通指标上超越了传统的驾驶策略;基于实验和分析,对未来如何开发更好的驾驶学习算法提出了建设性的意见。本文创新点有两个,一是设计了驾驶策略的状态空间,提出了相应的神经网络结构和奖励函数来进行深度强化学习训练;二是研究、分析了整个算法中,神经网络因素和交通环境因素对最终学习结果的影响。本文的驾驶仿真环境可以与不同的底层仿真...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:85 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题背景
1.2 国内外的研究现状
1.2.1 传统驾驶模型
1.2.2 深度强化学习
1.2.3 无人驾驶与深度学习的结合
1.3 研究目的
1.4 论文工作
1.5 文章结构
1.6 本章小结
第2章 理论基础
2.1 神经网络
2.1.1 卷积神经网络
2.1.2 递归神经网络
2.2 深度强化学习
2.2.1 强化学习
2.2.2 基于Q学习的深度强化学习
2.2.3 基于策略梯度的深度强化学习
2.2.4 异步的优势观察者-行为者算法
2.2.5 深度强化学习中的策略优化算法
2.3 相关开源项目
2.3.1 SUMO
2.3.2 Ray
2.4 本章小结
第3章 基于交通仿真系统的强化学习环境
3.1 设计目标
3.2 设计方案
3.2.1 整体结构
3.2.2 交通场景生成
3.2.3 交通车辆生成
3.2.4 环境类
3.3 实现方式
3.4 本章小结
第4章 驾驶策略学习的整体结构
4.1 驾驶模型
4.2 环境状态定义
4.3 驾驶动作定义
4.4 环境Reward定义
4.5 神经网络结构
4.6 训练策略与训练细节
4.6.1 训练算法
4.6.2 单Agent与多Agent
4.6.3 场景重置
4.6.4 动作控制
4.6.5 训练优化
4.7 本章小结
第5章 实验结果与分析
5.1 实验目标
5.2 场景准备
5.2.1 对手车辆定义
5.2.2 场景设计
5.3 奖励函数与量化指标
5.4 训练准备
5.5 实验设计
5.6 实验结果与分析
5.6.1 不同的输入空间和网络模型
5.6.2 算法的有效性
5.6.3 算法改进策略
5.7 与传统驾驶策略的对比
5.8 实验结论
5.9 本章小结
第6章 总结展望
6.1 工作总结
6.2 对无人驾驶的建议
6.3 工作展望
参考文献
附录A
致谢
本文编号:3182387
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:85 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题背景
1.2 国内外的研究现状
1.2.1 传统驾驶模型
1.2.2 深度强化学习
1.2.3 无人驾驶与深度学习的结合
1.3 研究目的
1.4 论文工作
1.5 文章结构
1.6 本章小结
第2章 理论基础
2.1 神经网络
2.1.1 卷积神经网络
2.1.2 递归神经网络
2.2 深度强化学习
2.2.1 强化学习
2.2.2 基于Q学习的深度强化学习
2.2.3 基于策略梯度的深度强化学习
2.2.4 异步的优势观察者-行为者算法
2.2.5 深度强化学习中的策略优化算法
2.3 相关开源项目
2.3.1 SUMO
2.3.2 Ray
2.4 本章小结
第3章 基于交通仿真系统的强化学习环境
3.1 设计目标
3.2 设计方案
3.2.1 整体结构
3.2.2 交通场景生成
3.2.3 交通车辆生成
3.2.4 环境类
3.3 实现方式
3.4 本章小结
第4章 驾驶策略学习的整体结构
4.1 驾驶模型
4.2 环境状态定义
4.3 驾驶动作定义
4.4 环境Reward定义
4.5 神经网络结构
4.6 训练策略与训练细节
4.6.1 训练算法
4.6.2 单Agent与多Agent
4.6.3 场景重置
4.6.4 动作控制
4.6.5 训练优化
4.7 本章小结
第5章 实验结果与分析
5.1 实验目标
5.2 场景准备
5.2.1 对手车辆定义
5.2.2 场景设计
5.3 奖励函数与量化指标
5.4 训练准备
5.5 实验设计
5.6 实验结果与分析
5.6.1 不同的输入空间和网络模型
5.6.2 算法的有效性
5.6.3 算法改进策略
5.7 与传统驾驶策略的对比
5.8 实验结论
5.9 本章小结
第6章 总结展望
6.1 工作总结
6.2 对无人驾驶的建议
6.3 工作展望
参考文献
附录A
致谢
本文编号:3182387
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3182387.html
最近更新
教材专著