基于深度强化学习的自动驾驶决策仿真
发布时间:2021-03-23 15:50
随着全球经济的不断发展和城镇化节奏的持续加速,全球汽车的保有量和道路里程数逐步增加。汽车尾气排放造成的污染、道路不断扩张带来的土地资源紧张以及交通事故等问题日益严重。由于传统的机动车辆无法避免此类交通问题的持续膨胀,随着车联网、智能驾驶等智能汽车技术的兴起,人们将这些传统汽车无法解决的问题寄予在智能驾驶等技术上。美国电气和电子工程师协会(IEEE)预测,到2040年底道路上行驶的车辆,配备自动驾驶技术的将会达到75%。本文基于深度强化学习方法,提出一种自动驾驶控制策略的学习方法。通过引入专业驾驶司机的经验数据用于预训练,然后使用经验过滤的Q-学习方法(DQFE)进行强化学习的训练。鉴于这种方法往往需要很长时间的训练,本文进而提出一种基于聚类分析进行优化的学习方法(DQFE-C)。首先,通过K-means聚类方法对试验中获得的状态-动作的信息数据进行处理,然后基于预设的分类模型,从每一类别中分别采样样本数据进行网络模型的训练。此处理方法不但可以有效降低样本数据的维度,即试验序列在时间轴上的数据维度;并且基于各类别分别采样处理的方法也使样本的独立同分布特性得到更好的保证。实验数据表明,DQ...
【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省
【文章页数】:51 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 引言
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 自动驾驶技术的研究现状
1.2.2 深度强化学习方法的研究现状
1.3 论文研究的内容
1.4 论文的组织
第二章 深度强化学习方法概述
2.1 深度学习
2.2 强化学习
2.3 经验池回放
2.4 聚类方法
2.5 深度强化学习
2.6 本章小结
第三章 自动驾驶仿真器
3.1 The Open Racing Car Simulation
3.2 Championship Platform
3.3 本章小结
第四章 自动驾驶策略仿真系统
4.1 系统架构
4.2 预训练网络模型权值
4.3 模型的交互式学习和测试
4.4 经验池回放的约束
4.5 状态特征的聚类分析处理
4.6 本章小结
第五章 实验结果及分析
5.1 环境配置
5.2 训练数据样本的设置
5.3 基于经验池回放和深度强化学习的自动驾驶仿真系统研究
5.3.1 参数配置
5.3.2 模型训练效率及控制性能
5.3.3 经验池大小对网络模型的影响
5.4 针对状态特征聚类的自动驾驶控制决策学习的案例研究
5.4.1 参数配置
5.4.2 聚类分析模型
5.4.3 模型训练效率及控制性能
5.4.4 聚类数量的影响
5.4.5 泛化能力测试
5.5 本章小结
第六章 总结与展望
6.1 研究总结
6.2 研究展望
参考文献
致谢
作者简介
【参考文献】:
期刊论文
[1]2016年底全国保有机动车达2.9亿辆[J]. 汽车维修与保养. 2017(02)
[2]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进. 计算机学报. 2018(01)
[3]期待无人驾驶汽车[J]. 艳涛. 机器人技术与应用. 2015(02)
[4]无人驾驶汽车的发展综述[J]. 冯学强,张良旭,刘志宗. 山东工业技术. 2015(05)
[5]深度学习算法的原理及应用[J]. 胡侯立,魏维,胡蒙娜. 信息技术. 2015(02)
[6]汽车智能化的道路:智能汽车、自动驾驶汽车安全监管研究[J]. 翁岳暄,多尼米克·希伦布兰德. 科技与法律. 2014(04)
[7]无人驾驶汽车的发展现状和展望[J]. 杨帆. 上海汽车. 2014(03)
[8]动物行为训练的理论基础[J]. 刘赫. 中国动物保健. 2014(02)
[9]地面无人驾驶技术现状及应用[J]. 戴斌,聂一鸣,孙振平,安向京. 汽车与安全. 2012(03)
[10]基于TORCS平台的虚拟车辆仿真系统开发[J]. 何宁,赵治国,朱阳. 中国制造业信息化. 2010(15)
博士论文
[1]车辆自适应巡航跟随控制技术研究[D]. 马国成.北京理工大学 2014
本文编号:3096043
【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省
【文章页数】:51 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 引言
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 自动驾驶技术的研究现状
1.2.2 深度强化学习方法的研究现状
1.3 论文研究的内容
1.4 论文的组织
第二章 深度强化学习方法概述
2.1 深度学习
2.2 强化学习
2.3 经验池回放
2.4 聚类方法
2.5 深度强化学习
2.6 本章小结
第三章 自动驾驶仿真器
3.1 The Open Racing Car Simulation
3.2 Championship Platform
3.3 本章小结
第四章 自动驾驶策略仿真系统
4.1 系统架构
4.2 预训练网络模型权值
4.3 模型的交互式学习和测试
4.4 经验池回放的约束
4.5 状态特征的聚类分析处理
4.6 本章小结
第五章 实验结果及分析
5.1 环境配置
5.2 训练数据样本的设置
5.3 基于经验池回放和深度强化学习的自动驾驶仿真系统研究
5.3.1 参数配置
5.3.2 模型训练效率及控制性能
5.3.3 经验池大小对网络模型的影响
5.4 针对状态特征聚类的自动驾驶控制决策学习的案例研究
5.4.1 参数配置
5.4.2 聚类分析模型
5.4.3 模型训练效率及控制性能
5.4.4 聚类数量的影响
5.4.5 泛化能力测试
5.5 本章小结
第六章 总结与展望
6.1 研究总结
6.2 研究展望
参考文献
致谢
作者简介
【参考文献】:
期刊论文
[1]2016年底全国保有机动车达2.9亿辆[J]. 汽车维修与保养. 2017(02)
[2]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进. 计算机学报. 2018(01)
[3]期待无人驾驶汽车[J]. 艳涛. 机器人技术与应用. 2015(02)
[4]无人驾驶汽车的发展综述[J]. 冯学强,张良旭,刘志宗. 山东工业技术. 2015(05)
[5]深度学习算法的原理及应用[J]. 胡侯立,魏维,胡蒙娜. 信息技术. 2015(02)
[6]汽车智能化的道路:智能汽车、自动驾驶汽车安全监管研究[J]. 翁岳暄,多尼米克·希伦布兰德. 科技与法律. 2014(04)
[7]无人驾驶汽车的发展现状和展望[J]. 杨帆. 上海汽车. 2014(03)
[8]动物行为训练的理论基础[J]. 刘赫. 中国动物保健. 2014(02)
[9]地面无人驾驶技术现状及应用[J]. 戴斌,聂一鸣,孙振平,安向京. 汽车与安全. 2012(03)
[10]基于TORCS平台的虚拟车辆仿真系统开发[J]. 何宁,赵治国,朱阳. 中国制造业信息化. 2010(15)
博士论文
[1]车辆自适应巡航跟随控制技术研究[D]. 马国成.北京理工大学 2014
本文编号:3096043
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3096043.html