基于贝叶斯决策树的交通事件持续时间预测
本文关键词:基于贝叶斯决策树的交通事件持续时间预测,由笔耕文化传播整理发布。
第36卷第3期2008年3月
同济大学学报(自然科学版)
JO.rRNALOFTONGJIUNIVERSITY(blATURALSCl日咂Z)
Vd.36No.3Mar.2008
基于贝叶斯决策树的交通事件持续时间预测
姬杨蓓蓓,张小宁,孙立军
(同济大学交通运输工程学院,上海200092)
摘要:采用基于贝叶斯方法的决策树算法,利用上海市中心城区1536个交通事件持续时间数据,建立交通事件持续时间的预测模型。结果表明,事件类型是决策树中的第一层测试属性,不同类型事件的特性属性在决策树中的位置并不相同。并用384个交通事件数据对模型的预测精度进行检验。检验结果表明,抛锚事件持续时间预测误差小于10ro_ha的正确率为79%,而交通事故持续时间预测误差小于20min的正确率为65%。基于贝叶斯推理的决策树算法比仅基于贝叶斯或仅基于决策树算法的分类精度更高,鲁棒性更强。
关键词:交通工程;交通事件;事件持续时间;预测方法;贝叶斯;决策树中图分类号:U
491
文献标识码:A文章编号:0253—374X(2008)03—0319一06
TrafficIncidentDurationPredictionGrounded
on
Bayesian
DecisionMethod—BasedTreeAlgorithm
JIYANGBeibei,ZHANGXiaoning,SUNLijun
(SehⅪlofTransportationEllgimering。TorsiUniversity,岛angIlai200092,CIli瑚)
Abstract:Thepaperpresents
on
a
predictionmethodoftrafficincidentdurationof
expressway,grounded
theBayesian
method—baseddecisiontreeclassificationalgorithmand1536incidentdataofShanghai
totest
centralcityexpressway.And384incidentdatawereadopted
thepredictionaccuracyofthis
model.TheresultsshowthattheincidenttypeiSthefirstlayerofthedecisiontreeanddifferentinci.
denthasdifferenttestattributes.ThepredictionaccuracyofanchordurationiS79%with10minuteswhilethatofaccidentmethodbased
an
error
of
durationiS65%with
accurate
anerror
of20minutes.Sothe
the
Bayesian
based
on
decision
or
tree
algorithmismore
andstabilizedthanmethod
Bayesian
method
decisiontreerespectively.engineering;traffic
Keywords:traffic
incident;incidentduration;prediction
method;Bayesian
method;decisiontree
交通拥堵已经成为世界上很多国家面临的主要对上海城市快速路的调查表明,仅中心区平均每天的交通事件达40-80次(包括抛锚和交通事故).交
交通问题之一.有关研究表呼¨,由高速公路事件
引起的偶发性交通拥堵(如交通事故,抛锚车辆,天气变化等),已占城市快速路总拥堵的50%-75%.
通管理者必须充分了解交通事件的性质和严重程
度,以及道路的具体情况,从而实现有效的交通事件
收稿日期:2007—05—09
基金项目:国家自然科学基金资助项目(70401016)
作者简介:姬杨蓓蓓(1981一).女.博士生,主要研究方向为交通工程,E-mail:0510120001@maail.toni.edu.∞
孙立军(1963一),男,教授,博士生导师,工学博士,主要研究方向为道路与交通工程,Bm越l:b蛐@髓m.tongii.edu.∞
万方数据
同济大学学报(自然科学版)第36卷
管理.然而,对于交通管理者而言,最困难是预估交
通事件的持续时间.预估准确,有助于决定采取适当的管理措施.
很多研究者在交通事件持续时间的预测方法研
究中有所尝试,提出了多种预测方法,如基于概率的
预测模型、线性回归模型、决策树模型、非参数回归模
型、模糊逻辑模型等【2-3].除了决策树模型外,其他模
型还需要了解事件的详细信息,因此很难用于实际的交通事件管理中.本文采用基于贝叶斯方法的决策树分类算法【4J,建立交通事件持续时间的决策树.该方法的主要特点是提高了精度和分类的鲁棒性,可更好
地处理不一致、不完整和噪声干扰数据.
1模型的建立
1.1贝叶斯方法
朴素的贝叶斯分类方法是贝叶斯方法中实用性很高的一种学习方法,其关键是使用概率表示各种形式的不确定性.在选择某事件面临不确定性时,在
某一时刻假定此事件会发生的概率,然后根据不断
获取的新信息修正此概率.修正前和修正后的概率分别为先验概率、后验概率.
每个数据样本用一个,z维特征向量X={zl,z2,…,z。}表示,分别描述对,1个属性A1,A2,…,A。样本的,z个度量.假定有m个类C1,C2,…,C优,给定1个未知的数据样本x(即没有类标号),分类器将预测x属于具有最高后验概率(条件x下)的类.也就是说,朴素贝叶斯分类将未知的样本
分配给G(1≤i≤m),当且仅当P(cfIx)>P(Gx),对任意的歹=1,2,…,m,J≠i.这样,最大化为P(Gx),最大的类为最大后验假定.由贝叶斯定理
P(G㈣=塑景产(1)
由于P(X)对于所有类为常数,只需要P(x
Ci)P(G)最大即可.其中,P(G)=&/s,&是类G
中的训练样本数,而s是训练样本总数.为了简化计算,可以做类条件独立的朴素假定,即属性值相互独
立(属性问不存在依赖关系).这样
P(x
cf)=l'【P(戤l
G)
(2)
其中,概率P(zlCi),P(z2G),…,P(z。IG)"--I
以由i/ll练样本估计.
万
方数据对未知样本x分类,也就是对每个类Cf,计算
P(xlCi)P(Ci).样本x被指派到类G,当且仅当P(GX)>P(Cix),1≤.f≤m,歹≠i.换言之,x
被指派到其P(XIG)P(G)最大的类.
1.2决策树
决策树分类方法是应用最广泛的逻辑方法之
一,它从一组无次序、无规则的事例中,推理出决策树表示形式的分类规则.决策树分类方法采用自顶向下的的递归方式,在决策树的内部节点比较属性
值,并根据不同的属性值判断从该节点向下的分支,在决策树的叶节点得到结论.所以,从决策树的根到
叶节点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则.基于决策树的分类算法的一个最大的优点就是学习过程中不需要
使用者全面了解背景知识.
1.3基于贝叶斯推理的决策树【4】
在原有决策树T的基础上,在T中加人新的节点,此节点位于T的两个属性测试节点之间,能够
根据贝叶斯原理计算此节点.此节点称为贝叶斯节点,具有这样节点的决策树称作贝叶斯决策树.本文用基于贝叶斯方法的决策树分类算法,建立了交通事件持续时间预测模型.图1为基于贝叶斯推理的
决策树模型示意图.
属性节点
条件节点贝叶斯节点
属性节点
图1基于贝叶斯方法的决策树模型
Fig.1
Decisiontree
algorithmmodelbasedOn
Bayesian
Method
经过条件节点口后,判断贝叶斯条件的0和厂
值.0表示节点不进行任何计算,直接根据条件口转向下一属性测试节点;厂表示需要计算厂的值.这里
的函数厂是朴素的贝叶斯公式,即如果贝叶斯节点需要厂值,则下一个属性节点的选择依赖于两点:
①属性测试条件口;②函数厂的值.
基于贝叶斯方法的决策树分类算法的基本思想
是:对于能够用信息增益方法确切选择某个属性的
分支,选取贝叶斯节点的0值;对于数据对象具有二义性,或属性值丢失的数据,如某一交通事件的伤亡
第3期
姬杨蓓蓓,等:基于贝叶斯决策树的交通事件持续时间预测
情况未知,则选取.厂值,利用贝叶斯方法确定其后
验概率,选取后验概率最大的那一类,此类即为数据
对象所属的类别.其中,信息增益法是基于信息论中
熵的概念[5J,算法选择具有最高信息增益的属性作为当前节点的测试属性.
设s是5个数据样本的集合,假定类标号属性
具有m个不同值,定义m个不同类G(i=1,2,…,
m);设&是类e中的样本数,对一个给定的样本分类所需的期望信息由下式给出:
Je
I(s1,s2,…,%)=一∑Pflb(Pi)
(3)
f=l
其中:P;是任意样本属于G的概率,一般可用s。/s
来估计;lb是以2为底的对数.设属性A具有73个
不同值{a1,口2,…,a。};可以用属性A将S划分为口个子集{sl,52,…,踮}.其中,岛包含S中这样一些样本,它们在A上具有值aj.如果A作为测试属
性,则这些子集对应于由包含集合S的节点生长出
来的分支.设s打是子集sj中类G的样本数,根据A划分成子集的熵由下式给出:
E(A)=宴笪竿÷立m∽趼…,%)
』=1
o
(4)
熵值越小,子集划分的纯度越高.由上面给出的
期望信息计算式,对于给定子集%其期望信息为
Je
I(Slj,5巧,…,smj)=一2j户巧z6(户巧)
(5)
其中,,pff=s∥hl是si中的样本属于类ci的概率.
由期望信息和熵值可以得到对应的信息增益值.对于在A上分支将获得的信息增益,可以由下
面的公式得到:
G(A)=J(51,s2,…,s。)一E(A)
(6)
算法计算每个属性的信息增益,并选取具有最
高增益的属性作为给定集合的测试属性.对被选取的测试属性创建一个节点,并以该属性标记对该属
性的每个值创建一个分支,并据此划分样本.
2数据来源
收集大量的交通事件数据对交通事件分类研究和准确地预测交通事件持续时间有着非常重要的意义.本研究采用“上海市城市快速路监控中心”的交
通事件数据作为分析数据源.上海市城市快速路监
控中心(简称高架道路监控中心)隶属于上海市市政工程管理处,于2002年成立,承担着上海市高架道
万
方数据路交通监控系统、地面交叉口交通信息采集系统的建设,以及交通信息的发布、交通分析评价等工作.在监控中心庞大的数据系统中,有交通事件较详细的记录,包括日常城市快速路的养护、处理城市快速路上的抛锚车辆和重大交通事故等.
选择与目前处理事件的条件差异不大的数据来标定模型,减少了数据的离散性,避免了由于数据离散性本身对模型精度的影响.所分析的交通事件数据是2007年1~5月发生在上海市中心城区高架道路上的车辆抛锚和交通事故,选取了1536个交通
事件数据分析研究,将样本随机分为两类,一类用于决策树的标定,标定数据为1152个,占样本总数的
75%;另一类验证生成决策树,共384个,占样本总
数的25%.
表1为标定和验证模型的交通事件数据的描述性统计.由表可见,小于20min的事件比例占一半
以上.可见,持续时间较短的交通事件占的比例较
大.这主要是因为中心区快速路的大部分交通事件
为抛锚事件,一般对抛锚事件采用牵引车直接牵引
的方法,随着牵引车工作效率的提高,抛锚事件的持续时间大大缩短.因此,中值也偏小.标定数据的中值为16min,而验证数据的中值为25min.交通事件持续时间的标准差受到大量抛锚数据的影响,也偏小.标定数据和验证数据的各项指标具体见表1.
表1用于标定和验证的交通事件数据的描述性统计
Tab.1
Descriptivestatisticoftrafficincidentdataforvalidationandcalibration
3决策树模型的建立和检验
构造好的决策树,关键在于选择好的逻辑判断或属性.对于同一个问题,可以构造出很多决策树.
一般情况下。树越小,树的预测能力越强.要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或
属性.笔者应用上述基于贝叶斯方法的决策树算法,
同济大学学报(自然科学版)
第36卷
对1152个交通事件数据进行分析,建立中心城区
及车辆数;③伤亡人数;④是否涉及大巴士;⑤是
高架道路的交通事件持续时间预测决策树模型.
影响交通事件持续时间的因素很多.表2给出了各种影响因素,实际收集的交通事件数据并没有包括所有的影响因素,只包括:①事件类型;②涉
否涉及货车;⑥货车上有否抛洒物;⑦是否工作日;⑧是否高峰期;⑨天气因素;⑩是否有交警到
位;⑩是否有救护车救援;⑩是否有消防车救援.
表2交通事件持续时间的影响因素
Tab.2
Influencefactorsoftrafficincidentduration
事件的其他影响因素
发生的时间
发生的地点
需要的救援措施
鲜啡工作日1无0斑m臻髅老奎趁耧
憩概
婿鹳阵焙射车
髅棼有无
2
s≥4磐票黎器鋈莩有无有无有无有无
性:车辆类型,伤亡情况,车辆数目;火烧事件持续时间的测试属性:车辆类型,伤亡情况,设施损坏情况;追尾事件持续时间的测试属性:涉及车辆数,车辆类型。有无伤亡;碰撞事件持续时间的测试属性:伤亡情况,有否死亡,车辆类型,地面散落物.因此,可得出上海市中心城区快速路的事件持续时间的关键影响因素是事件类型和严重性.其他因素如是否高峰、是否工作日、是否有其他方式的救援,并非主要的.
根据每个影响因素的信息增益值,可以得到决
策树;对于有些事件的某些信息不能完全获得,如某
一交通事件刚发生时。不知道确切的伤亡人数,此
时,可根据朴素的贝叶斯方法,确定其分类.计算第一个分支的12个影响因素(属性)的增益值分别为
G(事件类型)=0.363G(伤亡人数)=0.213
G(货车上有否抛洒物)=0.014G(是否是高峰期)=0.006G(是否有交警到位)=0.067G(是否有消防车救援)=0.110G(涉及车辆数)=0.268G(车辆类型)=0.147G(是否工作日)=0.009G(天气因素)=0.004G(有否救护车救援)=0.109
由于事件类型的增益值最高,因此,它首先作为测试属性分类,如图2所示.若事件类型中有不完全的属性值或属性值有二义性(如交通事件中的追尾和
.
图2决策树的顶层结构
Fig.2
Topstructureofthedecisionfree
algorithm
由决策树可以看出,每一类事件各层的测试属性不尽相同.如翻车和火烧的第一层为车辆类型,而追尾的第一层为车辆数,碰撞的第一层为伤亡情况.
碰撞有时很难区分),则按贝叶斯方法计算,再分类.
依次寻找五种类型交通事件的下一层的测试属
性,最后得出决策树,见图3.
抛锚事件的持续时间较短,且数据库中对抛锚事件的属性描述也较少,因此,根据车辆能否移动进
叶子节点给出了各分类事件的平均持续时间及其变
化范围.从预测结果可以看出,事件的持续时间变异性较大,这主要是因为影响因素较多,如表2中的影响因素不能全部获得,而且还有一些不可获得的属
行分类.由分类结果得出平均持续时间较短.翻车事件持续时间,根据各属性的增益值,得到分类测试属
性,如肇事者的年龄、喜好,车辆使用年限和性能等.
万方数据
第3期
姬杨蓓蓓,等:基于贝叶斯决策树的交通事件持续时间预测
323
a抛锚事件
c火烧事件持续时间
d追尾事件持续时间
c碰撞事件持续时间
围3各决策树结构(单位:min}
Fig.3
Decisiontreestructureofallkindsof
incidents(unit:rain)
万
方数据
博泰典藏网btdcw.com包含总结汇报、自然科学、计划方案、农林牧渔、医药卫生、党团工作、出国留学、经管营销以及基于贝叶斯决策树的交通事件持续时间预测_图文等内容。
本文共2页12
本文关键词:基于贝叶斯决策树的交通事件持续时间预测,由笔耕文化传播整理发布。
本文编号:103782
本文链接:https://www.wllwen.com/kejilunwen/jiaotonggongchenglunwen/103782.html