基于深度强化学习的城市道路交通控制算法研究
发布时间:2021-11-12 20:45
随着我国城镇化率和人均机动车保有量的不断提高,许多城市面临着交通拥堵的困境。近年来随着科技不断进步,大数据、人工智能、深度强化学习等领域的研究不断深入,结合这些新技术的城市智慧交通也成为了研究的热点。此外,城市交通的信息化程度的逐步完善为城市智慧交通的实现提供了数据层面的保障。本文在实现城市交通信号的优化问题上进行了深入的研究,主要的工作分为以下两个部分。在工程层面上,本文分别设计并实现了两个分别基于Vissim和SUMO仿真软件的交通信号控制仿真平台。这两个平台面向强化学习算法进行设计和优化,并且在专业的仿真软件基础上二次开发,提高了仿真实验的可信度。在算法层面上,本文提出了一种基于深度Q网络算法的交通控制算法,利用矩阵表示法对交通状态信息进行提取,对小型路网的联合信号相位进行独热编码作为智能体的动作,论证了深度强化学习算法在小规模网络上进行交通信号控制优化的可行性,并且通过多个实验分析了DQN算法在此领域的优势和局限性;目前针对区域路网的信号控制时往往采用分布式控制方案,其策略协调往往依赖于人工调整,而中心式控制往往受限于动作空间,无法在状态动作空间内进行高效的探索从而学习到良好的...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【图文】:
强化学习的基本框架
电子科技大学硕士学位论文10出的映射关系。图2-2全连接神经网络示意图全连接神经网络中每一个神经元都代表一个独立的计算单元,通常具有相同的结果和计算模式。类似生物的神经元细胞的兴奋信号传递模式,神经元接收到来自若干个其他神经元传递过来的输入信号,接收到的信号输入将与神经元的阈值进行比较,从而选择是否继续向下层神经元传递信号。这种M-P(McCullochandPitts,1943)神经元模型是一直沿用至今的神经元模型,将其数学模型化表示之后,这些输入信号再神经元模型中通过带权重的连接进行传递,神经元接收到的总输入利用激活函数进行“激活”之后产生神经元的输出,其中权重向量表示为w,输入向量表示为x,激活函数表示为g,则单个神经元输出为g(wx)。对于M-P神经元模型,理想状态下的激活函数为阶跃函数,此函数能够将输入信号变化为0或者1的神经元输出,具体地,数学意义上的1代表神经元兴奋状态,0代表神经元抑制状态。但是从数学意义上,阶跃函数的缺点是其函数不连续、不光滑,常常存在不可导的情况,因此实际常用可导函数作为激活函数。将多个神经元组合起来,将会得到类似图2-2的多层前馈网络,层与层之间的连线代表对应的权重,此时可以利用矩阵来表示神经网络层与层之间的前馈传播,即权重矩阵表示为W,输入向量(或者前层网络的输出向量)表示为x,激活函数表示为g,则单个神经元输出为g(Wx)。由上可以看出,神经网络的前馈计算过程可以用嵌套的函数表示出来。在神经网络构造完成时,此网络中所有神经元的传递函数和激活函数就已经确定了。激活函数本身在学习过程中是无法改变的,因此对于网络的前馈过程来说,神经网络输出的具体数值只取决于网络的输入或者神经网络的权重。通常情况下,神经网络在损失函数的引导下通
电子科技大学硕士学位论文12在卷积层之后,通常会添加池化层。池化的核心功能是降低数据的维数,以减少网络中的参数和计算复杂度。这能够有效地缩短训练时间并减小过拟合风险。最常见的池化层类型有最大池化和平均池化。最大池化操作是保留滑动窗口内矩阵元素的最大值;平均池化操作是保留窗口内元素的平均值。和卷积核一样,这些窗口大小需要预先定义。在卷积神经网络中池化会降低特征图的大小,同时保留重要信息。图2-3卷积神经网络结构示意图2.3深度Q网络方法此节主要对DQN算法的原理以及公式推导进行说明。DQN算法由Q学习衍生而来,其核心共同点都是对动作价值进行建模,下面将一步一步进行推导。智能体经过大量回合与环境的交互后,智能体得到一系列时间线上的环境状态、动作和奖励值,这些经验样本将是智能体学习的数据基矗为了解决强化学习问题,通常将其抽象为一个马尔科夫决策过程,即在一个离散的决策序列中(公式2-4),未来的状态只与当前状态决策相关,与过去的状态无关,用数学公式表达即,这种性质被称为马尔科夫无后效性。引入此性质能够几乎适用于大部分应用场景并且能够简化数学模型。111,,,,,,ttttHsarsar(2-4)由此可以对智能体的优化目标进行定义。策略π是智能体的行为基础,它是从环境状态到智能体动作或动作价值的一个函数映射。智能体在t时刻开始的累积奖励定义如公式2-5所示,其中γ是折扣因子,tG被称为回报(return)。智能体的目标是找到最优策略π*以最大化其获得的奖励数量。更具体地讲,智能体的目标旨在最大化累积奖励值的期望。折扣因子γ旨在调节潜在的远期回报和可见的短期回报之前的权重平衡,可以根据实际任务情况进行调整。若γ为1则智能体将会平等地对待短期和远期回报,若γ大于1可能导?
【参考文献】:
期刊论文
[1]基于D3QN的交通信号控制策略[J]. 赖建辉. 计算机科学. 2019(S2)
[2]基于深度强化学习的交通信号控制方法[J]. 孙浩,陈春林,刘琼,赵佳宝. 计算机科学. 2020(02)
[3]基于深度强化学习的城市交通信号控制算法[J]. 舒凌洲,吴佳,王晨. 计算机应用. 2019(05)
[4]Traffic Signal Timing via Deep Reinforcement Learning[J]. Li Li,Yisheng Lv,Fei-Yue Wang. IEEE/CAA Journal of Automatica Sinica. 2016(03)
本文编号:3491629
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【图文】:
强化学习的基本框架
电子科技大学硕士学位论文10出的映射关系。图2-2全连接神经网络示意图全连接神经网络中每一个神经元都代表一个独立的计算单元,通常具有相同的结果和计算模式。类似生物的神经元细胞的兴奋信号传递模式,神经元接收到来自若干个其他神经元传递过来的输入信号,接收到的信号输入将与神经元的阈值进行比较,从而选择是否继续向下层神经元传递信号。这种M-P(McCullochandPitts,1943)神经元模型是一直沿用至今的神经元模型,将其数学模型化表示之后,这些输入信号再神经元模型中通过带权重的连接进行传递,神经元接收到的总输入利用激活函数进行“激活”之后产生神经元的输出,其中权重向量表示为w,输入向量表示为x,激活函数表示为g,则单个神经元输出为g(wx)。对于M-P神经元模型,理想状态下的激活函数为阶跃函数,此函数能够将输入信号变化为0或者1的神经元输出,具体地,数学意义上的1代表神经元兴奋状态,0代表神经元抑制状态。但是从数学意义上,阶跃函数的缺点是其函数不连续、不光滑,常常存在不可导的情况,因此实际常用可导函数作为激活函数。将多个神经元组合起来,将会得到类似图2-2的多层前馈网络,层与层之间的连线代表对应的权重,此时可以利用矩阵来表示神经网络层与层之间的前馈传播,即权重矩阵表示为W,输入向量(或者前层网络的输出向量)表示为x,激活函数表示为g,则单个神经元输出为g(Wx)。由上可以看出,神经网络的前馈计算过程可以用嵌套的函数表示出来。在神经网络构造完成时,此网络中所有神经元的传递函数和激活函数就已经确定了。激活函数本身在学习过程中是无法改变的,因此对于网络的前馈过程来说,神经网络输出的具体数值只取决于网络的输入或者神经网络的权重。通常情况下,神经网络在损失函数的引导下通
电子科技大学硕士学位论文12在卷积层之后,通常会添加池化层。池化的核心功能是降低数据的维数,以减少网络中的参数和计算复杂度。这能够有效地缩短训练时间并减小过拟合风险。最常见的池化层类型有最大池化和平均池化。最大池化操作是保留滑动窗口内矩阵元素的最大值;平均池化操作是保留窗口内元素的平均值。和卷积核一样,这些窗口大小需要预先定义。在卷积神经网络中池化会降低特征图的大小,同时保留重要信息。图2-3卷积神经网络结构示意图2.3深度Q网络方法此节主要对DQN算法的原理以及公式推导进行说明。DQN算法由Q学习衍生而来,其核心共同点都是对动作价值进行建模,下面将一步一步进行推导。智能体经过大量回合与环境的交互后,智能体得到一系列时间线上的环境状态、动作和奖励值,这些经验样本将是智能体学习的数据基矗为了解决强化学习问题,通常将其抽象为一个马尔科夫决策过程,即在一个离散的决策序列中(公式2-4),未来的状态只与当前状态决策相关,与过去的状态无关,用数学公式表达即,这种性质被称为马尔科夫无后效性。引入此性质能够几乎适用于大部分应用场景并且能够简化数学模型。111,,,,,,ttttHsarsar(2-4)由此可以对智能体的优化目标进行定义。策略π是智能体的行为基础,它是从环境状态到智能体动作或动作价值的一个函数映射。智能体在t时刻开始的累积奖励定义如公式2-5所示,其中γ是折扣因子,tG被称为回报(return)。智能体的目标是找到最优策略π*以最大化其获得的奖励数量。更具体地讲,智能体的目标旨在最大化累积奖励值的期望。折扣因子γ旨在调节潜在的远期回报和可见的短期回报之前的权重平衡,可以根据实际任务情况进行调整。若γ为1则智能体将会平等地对待短期和远期回报,若γ大于1可能导?
【参考文献】:
期刊论文
[1]基于D3QN的交通信号控制策略[J]. 赖建辉. 计算机科学. 2019(S2)
[2]基于深度强化学习的交通信号控制方法[J]. 孙浩,陈春林,刘琼,赵佳宝. 计算机科学. 2020(02)
[3]基于深度强化学习的城市交通信号控制算法[J]. 舒凌洲,吴佳,王晨. 计算机应用. 2019(05)
[4]Traffic Signal Timing via Deep Reinforcement Learning[J]. Li Li,Yisheng Lv,Fei-Yue Wang. IEEE/CAA Journal of Automatica Sinica. 2016(03)
本文编号:3491629
本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/3491629.html