当前位置:主页 > 科技论文 > 路桥论文 >

基于增强学习的城市车辆出行线路规划研究

发布时间:2020-08-23 13:55
【摘要】:本文采用增强学习算法解决城市道路拥堵环境下的车辆出行路径规划问题。与传统的监督学习不同,增强学习不会对决策器的输出直接评分,而是通过车辆选取行驶道路在交通道路环境中的反馈,在不断地道路选择探索的过程中,优化车辆的行驶策略,从而获得最大的累计效益。具体的研究工作如下:建立了基于增强学习的出行线路规划模型。模型以车辆为智能体,道路网络为交互环境,通过车辆根据环境状态不断探索找出车辆出行的最优路径。考虑到交通出行路径选择与出行速度、道路拥堵具有相关性,本文给出的环境状态空间定义涉及了路段上车辆平均速度及路口拥堵指数等要素;针对拥堵指数、速度为连续量导致连续状态空间难以描述的问题,本文将状态定义为路口路段拥堵指数等级及速度的等级,在此基础上,给出了离散的表格型状态空间;鉴于线路的选择与行驶的时间、距离等因素相关,给出了考虑交通拥堵指数、路段距离、路段速度等因素的回报奖赏函数;以车辆行驶的不同方向为模型的动作集合,采用基于最佳优先搜索算法的贪心策略获取给定路网状态下的最优路径选择策略。利用青岛市交通数据进行增强学习算法模型仿真,构建了青岛市道路网络,给出了青岛市路网的状态空间,基于奖赏回报函数和动作探索策略,给出了路径选择策略,实验证明该模型能够解决车辆出行规划路径问题。针对道路路口、道路选择的多样性以及状态的连续性导致空间“维数灾难”问题和连续状态空间问题,本文采用值函数逼近策略去解决表格型增强学习中的值函数计算问题,使得模型在连续状态环境中能够获得车辆行驶路线。
【学位授予单位】:青岛大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:U491;TP18
【图文】:

原理图,增强学习算法,原理


第二章 增强学习算法习概述习在机器学习领域的关注度越来越高。增强学习算法理论将划思想与列夫·庞特里亚金的控制论相结合。增强学习受认的影响,并在生物学习过程中利用生命体在生长和生存过程序贯决策的重要方法[41]。增强学习算法采取持续的“交互-ironment)中通过与智能体(Agent)的不断交互学习,从而来获),将状态映射到动作来获得评价回报,达到极大化最终回报前状态下 ,决策执行一个动作 ,环境接收该动作后引起一状态]

本文编号:2801605

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/2801605.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户61acc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com