基于集成的多深度确定性策略梯度的无人驾驶策略研究

发布时间：2023-04-03 04:52

　　随着人工智能的迅速发展,无人驾驶成为了当今学术界与工业界备受追捧的研究热点,其相关技术研究可以减缓或消除传统人类驾驶存在的交通事故频发、交通拥堵严重等问题,对于解决传统汽车工业无法避免的问题极具现实意义。本文将深度强化学习技术应用于虚拟仿真环境下车辆的无人驾驶研究,提出了一种无人驾驶控制策略学习的方法。本文基于深度确定性策略梯度(DDPG)算法,针对其训练不稳定、训练时间长的弊端,提出了用于无人驾驶控制策略学习的集成的多深度确定性策略梯度(AMDDPG)算法。该算法首先通过多DDPG结构,结合两种不同的训练模式,并行地学习多个次优的子策略,然后使用策略集成的方法对多个次优子策略进行集成,得到最终的控制策略。多DDPG的结构融合了中央经验回放池技术,有效地打破训练数据之间的关联性,提高了数据的利用率。为快速验证AMDDPG算法用于无人驾驶控制策略学习的可行性与有效性,并避免真车实验成本高与安全性无法保障等各种弊端,本文基于所设计的算法与TORCS仿真平台,搭建了无人驾驶控制策略研究的仿真系统,并根据对受控制车辆的快速行驶、弯道刹车和靠近车道中轴线等行为的期望,提出了多个乘积项累积的回报函...

【文章页数】：65 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
第1章绪论
    1.1 选题背景
    1.2 研究的目的及意义
    1.3 国内外研究现状分析
        1.3.1 无人驾驶的国内外研究现状
        1.3.2 深度强化学习的国内外研究现状
    1.4 论文主要研究内容与创新点
        1.4.1 论文主要研究内容
        1.4.2 论文创新点
    1.5 论文章节安排
第2章深度强化学习理论基础
    2.1 深度学习理论基础
        2.1.1 神经网络的结构
        2.1.2 神经网络的训练
        2.1.3 深度学习模型
    2.2 强化学习方法
        2.2.1 强化学习框架与基本概念
        2.2.2 基于值函数的强化学习方法
        2.2.3 基于策略梯度的强化学习方法
    2.3 基于深度学习的强化学习
        2.3.1 深度Q网络算法（DQN）
        2.3.2 深度确定性策略梯度算法（DDPG）
    2.4 本章小结
第3章集成的多深度确定策略梯度算法设计
    3.1 集成的多深度确定性策略梯度（AMDDPG）算法
        3.1.1 多个深度确定性策略梯度的集成学习结构
        3.1.2 策略集成分析
        3.1.3 中央经验回放池技术
        3.1.4 训练模式与算法描述
    3.2 本章小结
第4章无人驾驶仿真系统架构设计
    4.1 TORCS仿真平台简介
    4.2 仿真环境的接口设计
    4.3 仿真环境状态信息
    4.4 仿真车辆的控制指令
    4.5 无人驾驶仿真系统架构
    4.6 本章小结
第5章实验与结果分析
    5.1 实验的软硬件环境
    5.2 网络结构层次设计
    5.3 回报函数设计
    5.4 网络权重预训练
    5.5 实验结果分析
        5.5.1 学习曲线
        5.5.2 训练时间
        5.5.3 子策略集成的效果
        5.5.4 集成策略的泛化性能
        5.5.5 子策略数量对集成策略的影响
    5.6 本章小结
第6章总结与展望
    6.1 研究总结
    6.2 研究展望
参考文献
致谢
作者简历及攻读学位期间发表的学术论文与研究成果

本文编号：3780696

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/qiche/3780696.html

上一篇：基于多智能体理论的电控空气悬架协同控制研究
下一篇：基于多源信息融合的目标跟踪方法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|