当前位置:主页 > 科技论文 > 汽车论文 >

基于深度强化学习的无人驾驶智能决策控制研究

发布时间:2020-07-16 04:24
【摘要】:随着人工智能技术的发展,越来越多的智能应用正在潜移默化的改变我们的生活。无人驾驶车辆是未来交通的发展方向,决策控制问题则是无人驾驶技术发展需要面对的重要问题。因此,将人工智能技术与无人驾驶决策领域相结合,有着十分广阔的应用前景和重要的研究意义。示教学习和强化学习都是训练智能体学习如何“做决策”的方法,它们有着各自的优缺点。本文选择并分析了两种方法的代表性算法:数据聚集(Dataset Aggregation,DAgger)和深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),发现DAgger算法虽然策略收敛较快,但示教策略限制了智能体的学习上限;而DDPG算法虽然不需要定义示教策略,但存在奖励值函数难以定义、训练效果波动较大等缺陷。因此,本文针对无人驾驶决策控制问题,提出将示教学习与强化学习相结合的解决方案,尝试吸取示教学习算法的优点,对强化学习算法训练效果进行提升。基于DDPG算法,本文提出了融合示教的DDPG算法(DDPG with Demonstration,DDPGw D)。算法的基本框架基于演员-评论家网络结构,本文重新设计了评论家网络的训练损失函数,在原有的时序差分损失基础上增加了对于示教数据的监督损失,采用示教动作与当前策略输出动作的动作-价值函数(Q值)均方差的形式,并增加边界值以保证监督效果。本文从理论上对新框架下的网络参数更新公式进行了推导。针对DDPG训练波动较大的问题,本文提出了一种合成经验回放思路,尝试在每个训练回合中都保证采样一定比例的“表现好”的转移过程,试图保证训练数据的多样性,提升网络训练效果。对于初始训练阶段,本文尝试存储每回合中最优的转移过程代替“表现好”的转移过程,以解决“表现好”数据量过少的问题。结合示教监督思路,本文设计了DDPGw D算法的总体训练流程。本文使用了人工智能领域常用的智能驾驶仿真环境,开源赛车模拟器(The Open Racing Car Simulator,TORCS)对算法进行了仿真验证,证明了上述算法在自动驾驶决策控制领域中的有效性。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:U463.6;TP18
【图文】:

车辆安全,智能,事故,基础科学问题


a) 谷歌无人车误撞公交 b) 特斯拉自动驾驶模式发生剐蹭事故图 1-1 无人(智能)驾驶车辆安全事故时有发生2017 年 7 月,国务院确立了以智能无人系统作为重点发展目标的人工智能技术研究规划思路。本课题尝试从示教学习、深度学习、强化学习等方法入手探索无人驾驶智能决策控制的基础科学问题,从而进一步突破无人驾驶车辆在

框架图,示教学习,框架,算法


图 1-2 融合示教学习与算法框架强化学习的算法框架类驾驶员可以很轻松完成的复杂运动控制,但对于智能驾驶系统大的困难。实际上对于大部分的智能系统而言,如果能把人类的到机器领域将会极大地推动智能控制技术的发展。在之前的部化学习与示教学习相结合的方式,对两种方法的缺陷都表现出一

框架图,决策控制,框架,全局规划


图 2-1 无人驾驶的决策控制框架者已经对全局规划部分做了大量的研究工学术论文[2]也基于启发式算法对全局规划提文主要侧重于对局部规划的研究工作。同基本的控制动作,这在许多仿真平台都是

【参考文献】

相关期刊论文 前1条

1 李力;王飞跃;郑南宁;;认知车——结合认知科学和控制理论的新研究方向[J];控制理论与应用;2011年02期

相关博士学位论文 前1条

1 孙振平;自主驾驶汽车智能控制系统[D];国防科学技术大学;2004年

相关硕士学位论文 前1条

1 田赓;复杂动态城市环境下无人驾驶车辆仿生换道决策模型研究[D];北京理工大学;2016年



本文编号:2757517

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/qiche/2757517.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e9eac***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com