基于深度强化学习的多智能体城市道路交叉口交通流优化控制研究

发布时间：2020-04-24 14:24

【摘要】：传统的交通信号控制系统主要是通过固定安装在路口附近的回路探测器以及交通摄像头等来获取实时的路口车辆信息,未能与智能交通系统(Intelligent Transport System,ITS)中的车辆子系统实现数据共享和事件互动,同时其自适应控制策略缺乏自我调节的功能。随着人工智能与自动驾驶技术等技术的发展,车路协同控制系统结合人工智能技术可为ITS提供一种更经济、更有效、自学习、自寻优的交通控制方案。为此,以自动驾驶车辆和信号灯控制器构成的闭环控制系统为研究对象,通过深度强化学习方法实现车流的动态调度,进而提升路网通行效率,本文主要开展了如下工作:1、采用马尔可夫决策过程(Markov Decision Process,MDP)建立了基于多智能体强化学习的车路协同控制模型(vehicle-road cooperative control model,VRCCM),设计了交通信号灯控制器(TLcontroller)和自动驾驶车辆控制器(AVcontroller)的交通状态空间、动作空间以及奖励函数,进而引入深度强化学习(Deep Reinforcement Learning,DRL)算法对VRCCM进行训练和优化。2、针对DRL算法中传统递归神经网络不能对交通流序列中的长时依赖信息建模,以及样本相关性过大容易导致训练的策略难以最优等问题,提出了一种优化的基于长短时记忆(Long Short-Term Memory,LSTM)深度网络的分布式PPO算法。同时在模型训练过程中,设计多进程同步采样方法,实现了智能体与不同环境互动历史信息的经验池存储,优化了模型的训练效率;在计算策略梯度时,引入minibatch方法提升了模型的训练速度,并避免算法陷入局部最优。3、搭建交通仿真平台SUMO(Simulation of Urban Mobility),设计了井字型路口区域的交通流控制模拟系统,通过在不同路网饱和度状态下改变自动驾驶车辆的比例来计算路网区域的平均速率,在Gym环境下对分布式PPO算法进行了系统训练及优化。仿真实验结果表明,随着路网饱和度的增加,区域的平均速率增长率虽然下降,但明显高于仅由信号灯控制下的平均速率;同样在路网高饱和度状态下,本文方法对比信号灯控制,区域通车量平均提高23.6%、平均速率提高了30.7%,表明本文方法对提升路网通行效率具有一定的参考价值和意义。
【图文】：

基本原理,状态转移概率,元组,建模

强化学习基本原理

状态集,当前状态,初始状态,红色

图 2-3 MDP 示例图状态，状态集表示为S { ，，，，， }，动作 }，红色标注当前状态转移到下一个状态的立即回报。的某一回合中，当给定初始状态和策略时，我们定义
【学位授予单位】：福建工程学院
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：U491.54

【参考文献】