基于深度强化学习的端到端自动驾驶技术研究
发布时间:2021-06-07 22:34
自动驾驶的任务是车辆通过各种传感器感知道路环境,在没有人为进行干预的情况下,实时地改变驾驶的行为,包括转向、加速和制动等。实现自动驾驶可以使交通事故的发生减少,道路交通资源得到更合理的利用,因此研究自动驾驶技术具有非常重要的意义。由于端到端的自动驾驶不需要人为指定规则,而直接学习驾驶动作,所以端到端方法的研究是自动驾驶领域的重要研究方向之一。深度强化学习方法通过和环境交互学习策略与人类学习驾驶的方式相似,被广泛用于端到端驾驶任务中。本文利用深度强化学习算法,对虚拟环境下车辆的自动驾驶进行研究。该算法是基于深度确定性策略梯度算法的改进,针对训练样本利用率低的问题,将优先经验回放方法与深度确定性策略梯度算法相结合,从仿真环境中获取原始的传感器输入,模型输出连续的加速、转向、制动行为,并将训练数据存入缓冲区中,通过优先经验回放的高效采样方法,实现训练速度的加快。由于深度强化学习需要车辆与环境进行多次交互,训练过程中会出现错误的驾驶行为,在现实中训练自动驾驶会对车辆和周围环境造成不可估量的损害,所以本实验是在仿真平台的虚拟环境中实现的,然而端到端驾驶的最终目标是使真实车辆在现实环境中自主做出驾...
【文章来源】:中国科学院大学(中国科学院大学人工智能学院)北京市
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
图1.1深度Q网络基本结构i5l??
?基于深度强化学习的端到端自动驾驶技术研究???Global?Network??r'—一邊??'?^??_(s)??z?/?\?、???戀麵麵?SI??r.:l?;:.:;:l?它?I?…?::l??Worker?1?Worker?2?Worker?3?Wort?rn??I?t?t?f??Enwroomern?1?Envifoomaw?2?Env*t>om〇nt3?...?£nv*〇wneMn??图1.2A3C模型??Figure?1.2?The?model?of?A3C??2014?年,Sliver?提出了确定性策略搜索(Deterministic?Policy?Gradient,?DPG)??算法111],采用确定性的动作代替随机动作的选择。2016年,Lillicrap等在此基础??上提出了深度确定性策略梯度(Deep?Deterministic?Policy?Gradient,?DDPG)算法??[12】。DDPG算法整体上采用的是Actor-Critic框架,Critic部分应用DQN算法,??采用随机采样和单独的目标网络方法,减少样本数据之间的关联性,并利用基于??DPG的Actor-Critic算法处理连续动作空间。2016年,Silver等[13]将深度强化学??习算法应用到围棋游戏中,利用蒙特卡洛树搜索算法训练智能围棋“Alpha?Go”,??并与围棋冠军李世石对赛,取得了四比一的胜利。这一事件代表了人工智能技术??应用的潜力,深度强化学习取得了学术领域和工程领域等专家的关注。??近两年,国内外研宄人员尝试将深度强化学习应用到各个领域,在无人机、??物流机器人、机器
图1.3混合CNN-RNN的结构丨17丨??
【参考文献】:
期刊论文
[1]域自适应学习研究进展[J]. 刘建伟,孙正康,罗雄麟. 自动化学报. 2014(08)
本文编号:3217438
【文章来源】:中国科学院大学(中国科学院大学人工智能学院)北京市
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
图1.1深度Q网络基本结构i5l??
?基于深度强化学习的端到端自动驾驶技术研究???Global?Network??r'—一邊??'?^??_(s)??z?/?\?、???戀麵麵?SI??r.:l?;:.:;:l?它?I?…?::l??Worker?1?Worker?2?Worker?3?Wort?rn??I?t?t?f??Enwroomern?1?Envifoomaw?2?Env*t>om〇nt3?...?£nv*〇wneMn??图1.2A3C模型??Figure?1.2?The?model?of?A3C??2014?年,Sliver?提出了确定性策略搜索(Deterministic?Policy?Gradient,?DPG)??算法111],采用确定性的动作代替随机动作的选择。2016年,Lillicrap等在此基础??上提出了深度确定性策略梯度(Deep?Deterministic?Policy?Gradient,?DDPG)算法??[12】。DDPG算法整体上采用的是Actor-Critic框架,Critic部分应用DQN算法,??采用随机采样和单独的目标网络方法,减少样本数据之间的关联性,并利用基于??DPG的Actor-Critic算法处理连续动作空间。2016年,Silver等[13]将深度强化学??习算法应用到围棋游戏中,利用蒙特卡洛树搜索算法训练智能围棋“Alpha?Go”,??并与围棋冠军李世石对赛,取得了四比一的胜利。这一事件代表了人工智能技术??应用的潜力,深度强化学习取得了学术领域和工程领域等专家的关注。??近两年,国内外研宄人员尝试将深度强化学习应用到各个领域,在无人机、??物流机器人、机器
图1.3混合CNN-RNN的结构丨17丨??
【参考文献】:
期刊论文
[1]域自适应学习研究进展[J]. 刘建伟,孙正康,罗雄麟. 自动化学报. 2014(08)
本文编号:3217438
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3217438.html