基于逆向强化学习的自主驾驶技术研究
发布时间:2022-09-24 20:46
随着机器学习算法的发展,自主驾驶技术不断向前推进,将对未来的城市交通产生重要影响。自主驾驶任务的核心在于决策与控制算法,传统的决策算法包括专家规则库和行为克隆,存在着泛化能力弱、不适用于复杂场景等问题。更为流行的强化学习决策算法具备一定的探索性,能够优化出具备较好泛化性能的控制策略。然而,目前的强化学习算法存在探索成本高和报酬函数难以确定的问题。为了解决上述问题,本文给出改进的策略优化算法,并利用逆向强化学习算法学习出最优的报酬函数,将其应用于自主驾驶决策任务。针对强化学习决策算法探索成本高的问题,给出了融合专家监督损失的深度确定性策略梯度算法。采用混合采样机制,从专家演示数据和自产生数据中采样获取训练样本。对于专家训练样本,引入专家监督损失函数,将专家策略与当前策略的均方误差作为专家监督损失,联合原始策略梯度进行策略优化。对于自产生训练样本,按照原始的策略梯度进行策略优化。专家监督损失函数一方面指导着策略向专家策略的方向学习,另一方面指导着智能体在自我探索中学习。将给出的算法在开源赛车模拟器中进行仿真,对比分析策略学习速度、训练过程波动性以及最优策略性能,验证了给出的策略优化算法在自...
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题研究背景和意义
1.2 国内外研究现状
1.2.1 经典智能决策算法
1.2.2 监督学习决策算法
1.2.3 强化学习决策算法
1.3 主要研究内容
第2章 自主驾驶问题建模及仿真平台
2.1 自主驾驶问题描述
2.1.1 马尔科夫决策过程
2.1.2 策略优化方法
2.2 自主驾驶仿真平台
2.3 本章小结
第3章 融合专家演示轨迹的正向强化学习
3.1 融合专家监督损失的DDPG算法
3.1.1 专家监督损失函数
3.1.2 混合采样机制
3.1.3 策略优化过程
3.2 自主驾驶仿真结果
3.2.1 策略学习速度分析
3.2.2 训练过程波动性分析
3.2.3 最优策略性能分析
3.3 本章小结
第4章 基于最大熵理论的逆向强化学习
4.1 基于最大熵的逆向强化学习算法研究
4.1.1 最大熵逆向强化学习算法描述
4.1.2 最大熵逆向强化学习算法学习过程
4.2 自主驾驶仿真结果
4.2.1 报酬函数迭代学习过程
4.2.2 策略学习速度对比分析
4.2.3 训练过程波动性对比分析
4.2.4 最优策略性能分析
4.2.5 泛化性能分析
4.3 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其他成果
致谢
【参考文献】:
期刊论文
[1]对汽车智能化进程及其关键技术的思考[J]. 陈虹,郭露露,边宁. 科技导报. 2017(11)
[2]城市环境下无人驾驶车辆驾驶规则获取及决策算法[J]. 陈雪梅,田赓,苗一松,龚建伟. 北京理工大学学报. 2017(05)
[3]深度强化学习综述:兼论计算机围棋的发展[J]. 赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红. 控制理论与应用. 2016(06)
[4]汽车智能化的道路:智能汽车、自动驾驶汽车安全监管研究[J]. 翁岳暄,多尼米克·希伦布兰德. 科技与法律. 2014(04)
[5]强化学习的模型、算法及应用[J]. 战忠丽,王强,陈显亭. 电子科技. 2011(01)
博士论文
[1]自主驾驶汽车智能控制系统[D]. 孙振平.国防科学技术大学 2004
本文编号:3680838
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题研究背景和意义
1.2 国内外研究现状
1.2.1 经典智能决策算法
1.2.2 监督学习决策算法
1.2.3 强化学习决策算法
1.3 主要研究内容
第2章 自主驾驶问题建模及仿真平台
2.1 自主驾驶问题描述
2.1.1 马尔科夫决策过程
2.1.2 策略优化方法
2.2 自主驾驶仿真平台
2.3 本章小结
第3章 融合专家演示轨迹的正向强化学习
3.1 融合专家监督损失的DDPG算法
3.1.1 专家监督损失函数
3.1.2 混合采样机制
3.1.3 策略优化过程
3.2 自主驾驶仿真结果
3.2.1 策略学习速度分析
3.2.2 训练过程波动性分析
3.2.3 最优策略性能分析
3.3 本章小结
第4章 基于最大熵理论的逆向强化学习
4.1 基于最大熵的逆向强化学习算法研究
4.1.1 最大熵逆向强化学习算法描述
4.1.2 最大熵逆向强化学习算法学习过程
4.2 自主驾驶仿真结果
4.2.1 报酬函数迭代学习过程
4.2.2 策略学习速度对比分析
4.2.3 训练过程波动性对比分析
4.2.4 最优策略性能分析
4.2.5 泛化性能分析
4.3 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其他成果
致谢
【参考文献】:
期刊论文
[1]对汽车智能化进程及其关键技术的思考[J]. 陈虹,郭露露,边宁. 科技导报. 2017(11)
[2]城市环境下无人驾驶车辆驾驶规则获取及决策算法[J]. 陈雪梅,田赓,苗一松,龚建伟. 北京理工大学学报. 2017(05)
[3]深度强化学习综述:兼论计算机围棋的发展[J]. 赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红. 控制理论与应用. 2016(06)
[4]汽车智能化的道路:智能汽车、自动驾驶汽车安全监管研究[J]. 翁岳暄,多尼米克·希伦布兰德. 科技与法律. 2014(04)
[5]强化学习的模型、算法及应用[J]. 战忠丽,王强,陈显亭. 电子科技. 2011(01)
博士论文
[1]自主驾驶汽车智能控制系统[D]. 孙振平.国防科学技术大学 2004
本文编号:3680838
本文链接:https://www.wllwen.com/kejilunwen/qiche/3680838.html