基于强化学习的列车自动驾驶方法研究

发布时间：2021-05-27 11:14

　　近年来,轨道交通在我国综合交通运输体系中发挥着日益重要的骨干作用。伴随着列车运行速度、密度的不断提高以及运行场景、环境的日益多样与复杂,人工驾驶列车已经很难满足列车运行控制系统自动化、智能化水平提升需求,发展列车自动驾驶（Automatic Train Operation,ATO）是大势所趋。当前多数针对ATO控制方法的研究聚焦于给定模型的参数进行策略优化,缺乏面对复杂运行环境和多样运营需求的鲁棒性、适应性以及自学习性,难以适应ATO智能化、智慧化发展需求。另一方面,强化学习（Reinforcement Learning,RL）和深度强化学习（Deep Reinforcement Learning,DRL）等人工智能新理论和新方法近些年得到飞速发展,不仅在图像识别、语义识别、游戏竞技等方面卓有成就,也逐渐向自动控制领域渗透,例如仿生机器人、无人汽车等,赋予了行业新的发展动能。因此,本文基于对轨道交通列车自动驾驶技术特征和强化学习等人工智能方法的深入认知与分析,结合轨道交通“安全、准点、绿色、舒适”四方面的关键需求,针对基于强化学习的列车自动驾驶新方法展开探索与研究,论文的主要创新工作和...

【文章来源】：中国铁道科学研究院北京市

【文章页数】：143 页

【学位级别】：博士

【文章目录】：
致谢
摘要
ABSTRACT
1 绪论
    1.1 课题研究背景及意义
        1.1.1 依托课题
        1.1.2 研究背景
        1.1.3 研究意义
    1.2 国内外研究综述
        1.2.1 列车自动驾驶基础理论与方法研究
        1.2.2 人工智能新技术在控制领域应用研究
    1.3 论文研究思路和技术路线
        1.3.1 论文研究思路
        1.3.2 论文技术路线
    1.4 论文结构安排
    1.5 本章小结
2 论文基础理论与方法
    2.1 列车运行控制与自动驾驶
        2.1.1 列车自动防护(ATP)
        2.1.2 列车自动驾驶(ATO)
    2.2 强化学习、深度学习与深度强化学习
        2.2.1 概述
        2.2.2 Q学习(Q-learning)强化学习
        2.2.3 策略梯度(Policy Gradient)强化学习
        2.2.4 深度学习与深度强化学习
    2.3 基于强化学习的列车驾驶控制模型
        2.3.1 列车节能驾驶控制模型
        2.3.2 列车驾驶马尔可夫决策模型
        2.3.3 列车驾驶强化学习模型
    2.4 本章小结
3 基于策略梯度强化学习的ATO优化方法
    3.1 问题描述
        3.1.1 列车节能运行工况分析
        3.1.2 站间节能控制序列:“减a减b”
        3.1.3 性能评价指标
    3.2 求解方法
        3.2.1 专家系统
        3.2.2 基于策略的强化学习方法
    3.3 算例实验与分析
        3.3.1 仿真环境
        3.3.2 仿真实验1
        3.3.3 仿真实验2
        3.3.4 仿真实验3
    3.4 本章小结
4 基于Q学习的列车节能优化策略
    4.1 基于值函数的Q学习方法
        4.1.1 定义状态空间
        4.1.2 状态转移规则
        4.1.3 状态-动作值函数
        4.1.4 值函数更新
    4.2 算例实验与分析
        4.2.1 仿真环境
        4.2.2 仿真实验1
        4.2.3 仿真实验2
    4.3 本章小结
5 基于深度Q学习的列车驾驶智能控制方法
    5.1 问题描述
    5.2 列车驾驶智能控制算法架构
    5.3 列车驾驶智能控制算法
        5.3.1 “最短剩余行程时间”算法
        5.3.2 状态空间定义
        5.3.3 训练数据生成算法
        5.3.4 奖励函数设计
        5.3.5 神经网络设计和训练
    5.4 算例实验与分析
        5.4.1 仿真环境
        5.4.2 仿真实验1
        5.4.3 仿真实验2
        5.4.4 仿真实验3
    5.5 本章小结
6 总结与展望
    6.1 主要研究工作
    6.2 主要创新点
    6.3 研究展望
参考文献
作者简历及攻读博士学位期间取得的科研成果
学位论文数据集

【参考文献】：
期刊论文
[1]2019年中国内地城轨交通线路概况[J].   现代城市轨道交通. 2020(01)
[2]中国城市轨道交通全自动运行系统技术及应用[J]. 宁滨,郜春海,李开成,张强.  北京交通大学学报. 2019(01)
[3]基于自适应模糊滑模的列车精确停车制动控制算法[J]. 何之煜,杨志杰,吕旌阳.  中国铁道科学. 2019(02)
[4]改进DDPG算法在自动驾驶中的应用[J]. 张斌,何明,陈希亮,吴春晓,刘斌,周波.  计算机工程与应用. 2019(10)
[5]基于强化学习的无人驾驶匝道汇入模型[J]. 乔良,鲍泓,玄祖兴,梁军,潘峰.  计算机工程. 2018(07)
[6]基于深度强化学习的自动驾驶策略学习方法[J]. 夏伟,李慧云.  集成技术. 2017(03)
[7]基于模糊自适应PID控制的ATO系统控制算法[J]. 刘浩,钱存元,施招东.  城市轨道交通研究. 2017(03)
[8]人工智能走向2.0[J]. 潘云鹤.  Engineering. 2016(04)
[9]深度学习在控制领域的研究现状与展望[J]. 段艳杰,吕宜生,张杰,赵学亮,王飞跃.  自动化学报. 2016(05)
[10]列车准点节能运行的控制工况最优切换研究[J]. 王青元,冯晓云.  中国铁道科学. 2016(02)

博士论文
[1]迭代学习辨识与控制及在高速列车运行控制系统中的应用[D]. 余琼霞.北京交通大学 2017
[2]城轨列车运行图和速度曲线一体化节能方法[D]. 宿帅.北京交通大学 2016
[3]高速列车迭代学习运行控制几类问题研究[D]. 李振轩.北京交通大学 2016
[4]列车节能操纵理论模型与参数标定方法研究[D]. 周方明.北京交通大学 2010
[5]内燃牵引货物列车节能操纵模型与实时优化算法[D]. 柏赟.北京交通大学 2010
[6]基于迭代学习控制的几类列车自动控制问题研究[D]. 王轶.北京交通大学 2010

硕士论文
[1]基于ATO控制策略的单车节能优化模型及算法研究[D]. 柳淑琦.北京交通大学 2016
[2]基于自适应滑模的列车运行速度跟踪研究及半实物仿真[D]. 侯晓伟.北京交通大学 2016
[3]城轨列车精确停车算法研究[D]. 吴鹏.西南交通大学 2015
[4]预测控制在列车自动驾驶系统中的应用研究[D]. 罗岩.上海交通大学 2015
[5]基于GPC-速度分级PID串级控制的ATO速度控制器设计与仿真[D]. 马文.西南交通大学 2014
[6]基于专家经验和机器学习的列车智能驾驶算法研究[D]. 冷勇林.北京交通大学 2013
[7]基于模糊自适应PID控制的列车自动驾驶系统的研究[D]. 李子钧.北京交通大学 2010
[8]基于模糊PID软切换的列车自动驾驶系统控制算法及仿真研究[D]. 高冰.北京交通大学 2009

本文编号：3207463

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/lindaojc/3207463.html

上一篇：基于互联网使用行为的意见领袖识别研究
下一篇：双元领导对新生代知识型员工创新行为的影响研究 ——工作繁荣和LMX的中介作用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|