基于虚拟仿真环境的自动驾驶策略学习

发布时间：2021-05-12 00:30

　　自动驾驶是人工智能研究的重要领域,对提高现实交通的安全性、效率性有着重大的意义。随着神经网络在计算机视觉、自然语言处理上的发展,越来越多的公司和研究机构开始研究深度学习和自动驾驶的结合。驾驶策略的学习是其中很重要的一个研究方向。传统的驾驶策略算法基于人工设计和数学建模,无法处理复杂的交通环境,不能满足自动驾驶的需要。本文的研究目的,是基于虚拟环境的条件下,训练得到更加智能的驾驶策略,在无人车训练平台中,作为对手车辆的驾驶策略,辅助真正的无人驾驶训练过程。本文的主要工作包括:基于驾驶的理论模型,搭建了一个用于强化学习的驾驶仿真环境;在驾驶仿真环境的基础上,提出了一种使用深度强化学习得到驾驶策略的算法框架;比较了不同的深度强化学习结构对驾驶策略学习的影响,得到的驾驶策略在多项交通指标上超越了传统的驾驶策略;基于实验和分析,对未来如何开发更好的驾驶学习算法提出了建设性的意见。本文创新点有两个,一是设计了驾驶策略的状态空间,提出了相应的神经网络结构和奖励函数来进行深度强化学习训练;二是研究、分析了整个算法中,神经网络因素和交通环境因素对最终学习结果的影响。本文的驾驶仿真环境可以与不同的底层仿真...

【文章来源】：浙江大学浙江省 211工程院校 985工程院校教育部直属院校

【文章页数】：85 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
第1章绪论
    1.1 课题背景
    1.2 国内外的研究现状
        1.2.1 传统驾驶模型
        1.2.2 深度强化学习
        1.2.3 无人驾驶与深度学习的结合
    1.3 研究目的
    1.4 论文工作
    1.5 文章结构
    1.6 本章小结
第2章理论基础
    2.1 神经网络
        2.1.1 卷积神经网络
        2.1.2 递归神经网络
    2.2 深度强化学习
        2.2.1 强化学习
        2.2.2 基于Q学习的深度强化学习
        2.2.3 基于策略梯度的深度强化学习
        2.2.4 异步的优势观察者-行为者算法
        2.2.5 深度强化学习中的策略优化算法
    2.3 相关开源项目
        2.3.1 SUMO
        2.3.2 Ray
    2.4 本章小结
第3章基于交通仿真系统的强化学习环境
    3.1 设计目标
    3.2 设计方案
        3.2.1 整体结构
        3.2.2 交通场景生成
        3.2.3 交通车辆生成
        3.2.4 环境类
    3.3 实现方式
    3.4 本章小结
第4章驾驶策略学习的整体结构
    4.1 驾驶模型
    4.2 环境状态定义
    4.3 驾驶动作定义
    4.4 环境Reward定义
    4.5 神经网络结构
    4.6 训练策略与训练细节
        4.6.1 训练算法
        4.6.2 单Agent与多Agent
        4.6.3 场景重置
        4.6.4 动作控制
        4.6.5 训练优化
    4.7 本章小结
第5章实验结果与分析
    5.1 实验目标
    5.2 场景准备
        5.2.1 对手车辆定义
        5.2.2 场景设计
    5.3 奖励函数与量化指标
    5.4 训练准备
    5.5 实验设计
    5.6 实验结果与分析
        5.6.1 不同的输入空间和网络模型
        5.6.2 算法的有效性
        5.6.3 算法改进策略
    5.7 与传统驾驶策略的对比
    5.8 实验结论
    5.9 本章小结
第6章总结展望
    6.1 工作总结
    6.2 对无人驾驶的建议
    6.3 工作展望
参考文献
附录A
致谢

本文编号：3182387

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3182387.html

上一篇：优化参数驱动的参数化模型自动更新
下一篇：乳腺超声图像的全自动分割

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|