基于非端到端强化学习的单点信号控制方法
发布时间:2023-01-26 04:40
传统的单点交通响应信号控制方法已经能够令信号控制设备完全代替人类采集、处理、分析和预测交通需求数据,动态调整信号配时,但仍需依赖人类现有的知识构建的规则或模型,在各类场景下信号配时方案的选择都相对固化,同时缺乏信号配时方案对性能影响的评价,无法利用评价改善现有的规则或模型。将人工智能领域的强化学习方法应用于单点信号控制,使交叉口层面的智能体与交叉口环境进行交互,通过尝试各种信号配时动作开拓经验,通过评价的反馈完善策略,从而超越人类水平。本文以单环4相位的单个四路交叉口为研究对象,基于非端到端强化学习,提出了一种单点人工智能信号控制方法。利用先进的交通数据检测技术,采集交叉口各进口道停止线后160m检测范围内的所有车辆的位置、车速等数据,提取交通运行状况和信号运行状况两类共132个特征,在此基础上构建状态向量。动作设定为:选择当前相位最小绿灯时间结束后的延长绿灯时间。以最小化交叉口车均排队时间为目标,将加权累进平均方法得到的交叉口车均排队时间变化量作为即时回报。本文借鉴Deep Q Network的技术体系,并有如下创新性成果:(1)对强化学习的各个技术环节的方法选用进行分析,选择最适合...
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 课题来源
1.2 研究背景
1.3 单点信号控制的进化历程
1.4 交通数据采集技术的发展
1.5 文献综述
1.6 马尔可夫决策过程简介
2 强化学习要素和技术选型
2.1 人工智能信号控制方法概述
2.2 即时回报选择
2.3 状态表征
2.3.1 状态表征方式的选择
2.3.2 到达驶离图
2.3.3 状态向量特征的选择和处理
2.4 时间差分方法
2.5 基于时间差分的控制方法选型
2.5.1 策略改善方式选择
2.5.2 动作价值的近似
2.6 无模型借鉴策略时间差分方法——DQN
3 定制DQN算法确定和智能体训练过程
3.1 多步时间差分方法
3.2 终止状态的设置
3.3 控制方法的解析
3.4 智能体训练技巧
3.4.1 训练技巧之VISSIM仿真
3.4.2 训练技巧之强化学习
3.5 强化学习超参数的取值
3.6 深度神经网络结构的设置
3.7 梯度下降算法的选择
3.8 智能体训练过程的观察
4 人工智能信号控制方法性能测试
4.1 对比对象选取
4.2 仿真实验方案设计
4.3 仿真实验环境设定
4.3.1 交通需求条件
4.3.2 信号配时条件
4.3.3 仿真参数设置
4.4 实验结果分析
5 结论
5.1 研究成果
5.2 主要创新点
5.3 后续研究展望
参考文献
附录A 仿真实验原始结果
致谢
【参考文献】:
期刊论文
[1]考虑交通管理策略的交叉口信号控制多目标优化[J]. 龙琼,胡列格,张谨帆,周昭明,彭烁. 中南大学学报(自然科学版). 2014(07)
[2]基于强化学习算法的公交信号优先策略[J]. 舒波,李大铭,赵新良. 东北大学学报(自然科学版). 2012(10)
[3]基于Q学习的城市交通信号灯混杂控制(英文)[J]. 赵晓华,李振龙,陈阳舟. 系统仿真学报. 2006(10)
本文编号:3732181
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 课题来源
1.2 研究背景
1.3 单点信号控制的进化历程
1.4 交通数据采集技术的发展
1.5 文献综述
1.6 马尔可夫决策过程简介
2 强化学习要素和技术选型
2.1 人工智能信号控制方法概述
2.2 即时回报选择
2.3 状态表征
2.3.1 状态表征方式的选择
2.3.2 到达驶离图
2.3.3 状态向量特征的选择和处理
2.4 时间差分方法
2.5 基于时间差分的控制方法选型
2.5.1 策略改善方式选择
2.5.2 动作价值的近似
2.6 无模型借鉴策略时间差分方法——DQN
3 定制DQN算法确定和智能体训练过程
3.1 多步时间差分方法
3.2 终止状态的设置
3.3 控制方法的解析
3.4 智能体训练技巧
3.4.1 训练技巧之VISSIM仿真
3.4.2 训练技巧之强化学习
3.5 强化学习超参数的取值
3.6 深度神经网络结构的设置
3.7 梯度下降算法的选择
3.8 智能体训练过程的观察
4 人工智能信号控制方法性能测试
4.1 对比对象选取
4.2 仿真实验方案设计
4.3 仿真实验环境设定
4.3.1 交通需求条件
4.3.2 信号配时条件
4.3.3 仿真参数设置
4.4 实验结果分析
5 结论
5.1 研究成果
5.2 主要创新点
5.3 后续研究展望
参考文献
附录A 仿真实验原始结果
致谢
【参考文献】:
期刊论文
[1]考虑交通管理策略的交叉口信号控制多目标优化[J]. 龙琼,胡列格,张谨帆,周昭明,彭烁. 中南大学学报(自然科学版). 2014(07)
[2]基于强化学习算法的公交信号优先策略[J]. 舒波,李大铭,赵新良. 东北大学学报(自然科学版). 2012(10)
[3]基于Q学习的城市交通信号灯混杂控制(英文)[J]. 赵晓华,李振龙,陈阳舟. 系统仿真学报. 2006(10)
本文编号:3732181
本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/3732181.html