当前位置:主页 > 科技论文 > 路桥论文 >

基于深度强化学习的多智能体城市道路交叉口交通流优化控制研究

发布时间:2020-04-24 14:24
【摘要】:传统的交通信号控制系统主要是通过固定安装在路口附近的回路探测器以及交通摄像头等来获取实时的路口车辆信息,未能与智能交通系统(Intelligent Transport System,ITS)中的车辆子系统实现数据共享和事件互动,同时其自适应控制策略缺乏自我调节的功能。随着人工智能与自动驾驶技术等技术的发展,车路协同控制系统结合人工智能技术可为ITS提供一种更经济、更有效、自学习、自寻优的交通控制方案。为此,以自动驾驶车辆和信号灯控制器构成的闭环控制系统为研究对象,通过深度强化学习方法实现车流的动态调度,进而提升路网通行效率,本文主要开展了如下工作:1、采用马尔可夫决策过程(Markov Decision Process,MDP)建立了基于多智能体强化学习的车路协同控制模型(vehicle-road cooperative control model,VRCCM),设计了交通信号灯控制器(TLcontroller)和自动驾驶车辆控制器(AVcontroller)的交通状态空间、动作空间以及奖励函数,进而引入深度强化学习(Deep Reinforcement Learning,DRL)算法对VRCCM进行训练和优化。2、针对DRL算法中传统递归神经网络不能对交通流序列中的长时依赖信息建模,以及样本相关性过大容易导致训练的策略难以最优等问题,提出了一种优化的基于长短时记忆(Long Short-Term Memory,LSTM)深度网络的分布式PPO算法。同时在模型训练过程中,设计多进程同步采样方法,实现了智能体与不同环境互动历史信息的经验池存储,优化了模型的训练效率;在计算策略梯度时,引入minibatch方法提升了模型的训练速度,并避免算法陷入局部最优。3、搭建交通仿真平台SUMO(Simulation of Urban Mobility),设计了井字型路口区域的交通流控制模拟系统,通过在不同路网饱和度状态下改变自动驾驶车辆的比例来计算路网区域的平均速率,在Gym环境下对分布式PPO算法进行了系统训练及优化。仿真实验结果表明,随着路网饱和度的增加,区域的平均速率增长率虽然下降,但明显高于仅由信号灯控制下的平均速率;同样在路网高饱和度状态下,本文方法对比信号灯控制,区域通车量平均提高23.6%、平均速率提高了30.7%,表明本文方法对提升路网通行效率具有一定的参考价值和意义。
【图文】:

基本原理,状态转移概率,元组,建模


强化学习基本原理

状态集,当前状态,初始状态,红色


图 2-3 MDP 示例图状态,状态集表示为S { , , , ,, },动作 },红色标注当前状态转移到下一个状态的立即回报。的某一回合中,当给定初始状态和策略 时,我们定义
【学位授予单位】:福建工程学院
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:U491.54

【参考文献】

相关期刊论文 前10条

1 陆化普;孙智源;屈闻聪;;大数据及其在城市智能交通系统中的应用综述[J];交通运输系统工程与信息;2015年05期

2 闫飞;田福礼;史忠科;;城市区域交通信号迭代学习控制策略[J];控制与决策;2015年08期

3 张邻;吴伟明;黄选伟;;基于动态信号配时的非线性规划模型[J];公路交通科技;2014年08期

4 龙琼;胡列格;张谨帆;周昭明;彭烁;;考虑交通管理策略的交叉口信号控制多目标优化[J];中南大学学报(自然科学版);2014年07期

5 朱铭琳;陈阳舟;;基于博弈的交叉口交通信号配时系统设计[J];计算机仿真;2013年07期

6 首艳芳;徐建闽;;基于群体动力学的协调控制子区划分[J];华南理工大学学报(自然科学版);2013年04期

7 聂建强;徐大林;;基于模糊Q学习的分布式自适应交通信号控制[J];计算机技术与发展;2013年03期

8 李建明;余春艳;;演化博弈下单点信号灯配时优化研究[J];交通运输系统工程与信息;2012年04期

9 赵晓华;李振龙;于泉;荣建;;基于Q学习算法的两交叉口信号灯博弈协调控制[J];系统仿真学报;2007年18期

10 杜荣华;吴泉源;;城市区域交通协调控制中的多Agent博弈研究[J];计算机工程与科学;2007年04期

相关硕士学位论文 前5条

1 伦立宝;基于强化学习的城市交通信号控制方法研究[D];西安电子科技大学;2013年

2 韦钦平;基于Q学习的多路口交通信号协调控制研究[D];长沙理工大学;2012年

3 王恺;实时反馈自适应信号控制系统研究[D];大连理工大学;2011年

4 高丽颖;基于Agent的城市交通信号控制方法研究[D];北京工业大学;2008年

5 王伟平;城市平面交叉口交通信号控制优化方法的研究[D];山东科技大学;2004年



本文编号:2639057

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/2639057.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户808ed***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com