基于近似动态规划的优化控制方法及在自主驾驶车辆中的应用
本文关键词: 自主驾驶 运动控制 增强学习 近似动态规划 流形学习 滚动优化 出处:《国防科学技术大学》2016年博士论文 论文类型:学位论文
【摘要】:近年来,随着工程应用范围的扩大,近似动态规划(Approximate dynamic programming,ADP)方法越来越多的被用于求解各种复杂的优化决策问题。如何提高近似动态规划方法的泛化能力和实时优化能力是本文的基础理论研究。另一方面,在国家自然科学基金重大研究计划重点资助项目的支持下,重点研究了自主车在不同道路形状和车速下基于近似动态规划的侧向控制方法。论文的主要工作成果和创新点如下:(1)针对传统近似动态规划方法存在学习效率低、特征选择困难的问题,提出了基于核的近似动态规划(Kernel-based ADP,KADP)方法。该方法采用稀疏核方法来构建基函数,并使用递推最小二乘时域差分算法来进行评价器的学习。理论分析表明由于稀疏核方法具有良好的表示学习和泛化能力,新方法中的评价器能够获得更小的逼近误差以及更快的收敛速度。对倒立摆系统的仿真与实验结果表明相对于传统的近似动态规划方法,新方法能够获得更优的控制性能和约30%的收敛速度提升。(2)提出了基于图拉普拉斯的近似动态规划(Graph Laplacian-based ADP,GL-ADP)方法。该方法将流形学习与近似动态规划相结合,利用图拉普拉斯算子进行基函数的构建,并采用递推最小二乘时域差分算法训练评价器。理论分析表明虽然GL-ADP的计算复杂性通常要高于KADP,但是避免了人工经验选取核函数类型与参数的问题。对连续搅拌釜式反应器和板球系统的仿真结果表明新方法能够获得优于传统近似动态规划方法的控制性能;此外相比于KADP方法,虽然计算代价有所提高,但是收敛速度和控制性能分别提升了约18%和2%。(3)提出了针对离散时间系统的滚动时域近似动态规划(Receding horizon ADP,RHADP)优化控制方法。该方法在每个预测时域内均采用有限时域的近似动态规划方法求解闭环的最优控制策略,并且其收敛性和受控系统的稳定性均得到证明。此外,分析结果表明新方法的计算复杂性为O(N2),而采用内点法作为优化方法的非线性模型预测控制方法的计算复杂性为O(N3L)。对移动机器人的轨迹跟踪问题和Van der pol振荡器控制问题的仿真研究结果表明,新方法能够获得优于采用内点法作为优化方法的非线性模型预测控制方法的控制性能,并且计算代价也明显降低。(4)提出了一种自适应的自主车侧向控制方法。首先建立了自主车侧向控制问题的马尔可夫决策过程模型,然后采用基于核的对偶启发式规划(Kernel-based dual heuristic programming,KDHP)算法来求取该控制问题的闭环最优策略。由于KDHP算法具有良好的自优化和泛化能力,因此有利于控制器在不同的道路形状及车速条件下获得较高的控制精度。在总里程约为200km的实车实验中(包括大曲率路径,校园道路,城市道路和高速公路),平均侧向误差约为0.18m,并且在某些条件下能够获得比已在车上使用的基于预瞄和运动学模型的反馈控制方法更高的控制精度,同时也避免了在拐大弯时误“抄近道”的问题。本文的研究成果已用于项目的自主驾驶测试车上。
[Abstract]:In recent years , with the expansion of engineering application range , the approximate dynamic programming ( ADP ) method is more and more used to solve complex optimization decision - making problems . ( 4 ) An adaptive autonomous vehicle lateral control method is proposed . The Markov decision process model of autonomous vehicle lateral control is established firstly , and then a kernel - based dual heuristic programming ( KDHP ) algorithm is adopted to obtain the closed - loop optimal strategy of the control problem .
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:O221.3;U463.6
【相似文献】
相关期刊论文 前10条
1 董洪波;谈动态规划原理的应用[J];水利天地;1994年04期
2 程吉林,金兆森,,沈洁,刘正祥,陈平;高维动态规划的试验选优方法[J];系统工程理论与实践;1996年02期
3 程吉林,金兆森,沈洁,刘正祥,陈平;多维动态规划的广义拉氏方法[J];江苏农学院学报;1996年02期
4 王俊,张光宇;多约束动态规划问题求解方法的探讨[J];经济师;2001年09期
5 马卫民,徐青川;局外k-出租车问题及其动态规划求法[J];系统工程学报;2001年06期
6 王刚;动态规划的应用实例[J];云南财贸学院学报;2001年S1期
7 储锦林;谈动态规划阶段状态的确定问题[J];安徽教育学院学报;2003年03期
8 孙晚华;关于动态规划顺序求解法的教学探讨[J];北京交通大学学报(社会科学版);2004年01期
9 罗党,刘思峰;灰色动态规划研究[J];系统工程理论与实践;2004年04期
10 段红玉;李芳菊;;动态规划在程序设计中的应用[J];中国科技信息;2006年07期
相关会议论文 前10条
1 蒋科林;迟宝山;许云华;刑俊文;;动态规划在装备计划生产中的运用[A];2006全国复杂网络学术会议论文集[C];2006年
2 张钊;裴燕玲;;动态规划的正向递推方法[A];2005年度山东建筑学会优秀论文集[C];2005年
3 玄一民;赵焕丛;刘宏;;动态规划在多重约束下可靠性选优应用研究[A];质量——持续发展的源动力:中国质量学术与创新论坛论文集(下)[C];2010年
4 曹平;范萌萌;刘克;陈建州;;卫星系统通讯路由问题的动态规划建模[A];第十届中国不确定系统年会、第十四届中国青年信息与管理学者大会论文集[C];2012年
5 胡乐群;吴沧浦;;矢量指标动态规划的满意解方法[A];全国青年管理科学与系统科学论文集(第1卷)[C];1991年
6 宋绍剑;李劲芝;林小峰;;基于执行依赖启发式动态规划的三容水槽液位控制[A];第二十七届中国控制会议论文集[C];2008年
7 海心;;使用Excel求解动态规划问题方法探讨[A];2005年中国机械工程学会年会论文集[C];2005年
8 宋丹丹;邓志东;;基于模糊动态规划的RNA折叠算法的研究与实现[A];2005年中国智能自动化会议论文集[C];2005年
9 张祥;王晓蕾;杨子宾;王剑;;动态规划理论在雷达可靠性评估中的应用[A];2009第五届苏皖两省大气探测、环境遥感与电子技术学术研讨会专辑[C];2009年
10 胡铁松;段国圣;万永华;冯尚友;;多目标动态规划的摄动权重法[A];1993中国控制与决策学术年会论文集[C];1993年
相关重要报纸文章 前1条
1 彭舒佳;专家吁建动态规划机制“纠编”用地[N];中国房地产报;2008年
相关博士学位论文 前5条
1 连传强;基于近似动态规划的优化控制方法及在自主驾驶车辆中的应用[D];国防科学技术大学;2016年
2 王颖;基于仿真的可重入生产系统的神经元动态规划调度研究[D];厦门大学;2007年
3 费蓉;动态规划研究及其在电力市场动态分区定价问题中的应用[D];西安理工大学;2009年
4 王怡慧;动态规划加速算法和轮廓探测算法[D];复旦大学;2012年
5 姜琳;过程控制优化中的智能方法研究[D];吉林大学;2010年
相关硕士学位论文 前10条
1 陈铭;基于动态规划的弱小目标检测前跟踪(DP-TBD)算法研究[D];电子科技大学;2014年
2 安政帅;基于动态规划的微弱目标检测前跟踪算法研究[D];西安电子科技大学;2014年
3 程亮;自适应动态规划在电力系统中的应用研究[D];华中科技大学;2014年
4 乔东钦;基于动态规划技术的MFI理论在板桥中的应用研究[D];湖南大学;2016年
5 蒙宁佳;基于近似动态规划的迭代控制研究及应用[D];北京化工大学;2016年
6 任华茜;基于动态规划的房地产多项目多阶段资金分配研究[D];西南科技大学;2016年
7 尹文杰;空域灵活使用中空域动态规划及流量动态分配技术研究[D];中国民航大学;2014年
8 赵尚宇;基于动态规划的弱目标检测前跟踪算法[D];杭州电子科技大学;2016年
9 董建双;基于动态规划的检测前跟踪(DP-TBD)算法研究[D];大连海事大学;2017年
10 张宏伟;数学建模中的动态规划问题[D];东北师范大学;2008年
本文编号:1491859
本文链接:https://www.wllwen.com/kejilunwen/yysx/1491859.html