当前位置：主页 > 科技论文 > 交通工程论文 >

基于贝叶斯决策树的交通事件持续时间预测

发布时间：2016-08-26 06:42

本文关键词：基于贝叶斯决策树的交通事件持续时间预测，由笔耕文化传播整理发布。

第３６卷第３期２００８年３月

同济大学学报（自然科学版）

ＪＯ．ｒＲＮＡＬＯＦＴＯＮＧＪＩＵＮＩＶＥＲＳＩＴＹ（ｂｌＡＴＵＲＡＬＳＣｌ日咂Ｚ）

Ｖｄ．３６Ｎｏ．３Ｍａｒ．２００８

基于贝叶斯决策树的交通事件持续时间预测

姬杨蓓蓓，张小宁，孙立军

（同济大学交通运输工程学院，上海２０００９２）

摘要：采用基于贝叶斯方法的决策树算法，利用上海市中心城区１５３６个交通事件持续时间数据，建立交通事件持续时间的预测模型。结果表明，事件类型是决策树中的第一层测试属性，不同类型事件的特性属性在决策树中的位置并不相同。并用３８４个交通事件数据对模型的预测精度进行检验。检验结果表明，抛锚事件持续时间预测误差小于１０ｒｏ＿ｈａ的正确率为７９％，而交通事故持续时间预测误差小于２０ｍｉｎ的正确率为６５％。基于贝叶斯推理的决策树算法比仅基于贝叶斯或仅基于决策树算法的分类精度更高，鲁棒性更强。

关键词：交通工程；交通事件；事件持续时间；预测方法；贝叶斯；决策树中图分类号：Ｕ

４９１

文献标识码：Ａ文章编号：０２５３—３７４Ｘ（２００８）０３—０３１９一０６

ＴｒａｆｆｉｃＩｎｃｉｄｅｎｔＤｕｒａｔｉｏｎＰｒｅｄｉｃｔｉｏｎＧｒｏｕｎｄｅｄ

ｏｎ

Ｂａｙｅｓｉａｎ

ＤｅｃｉｓｉｏｎＭｅｔｈｏｄ—ＢａｓｅｄＴｒｅｅＡｌｇｏｒｉｔｈｍ

ＪＩＹＡＮＧＢｅｉｂｅｉ，ＺＨＡＮＧＸｉａｏｎｉｎｇ，ＳＵＮＬｉｊｕｎ

（ＳｅｈⅪｌｏｆＴｒａｎｓｐｏｒｔａｔｉｏｎＥｌｌｇｉｍｅｒｉｎｇ。ＴｏｒｓｉＵｎｉｖｅｒｓｉｔｙ，岛ａｎｇＩｌａｉ２０００９２，ＣＩｌｉ瑚）

Ａｂｓｔｒａｃｔ：Ｔｈｅｐａｐｅｒｐｒｅｓｅｎｔｓ

ｏｎ

ａ

ｐｒｅｄｉｃｔｉｏｎｍｅｔｈｏｄｏｆｔｒａｆｆｉｃｉｎｃｉｄｅｎｔｄｕｒａｔｉｏｎｏｆ

ｅｘｐｒｅｓｓｗａｙ，ｇｒｏｕｎｄｅｄ

ｔｈｅＢａｙｅｓｉａｎ

ｍｅｔｈｏｄ—ｂａｓｅｄｄｅｃｉｓｉｏｎｔｒｅｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍａｎｄ１５３６ｉｎｃｉｄｅｎｔｄａｔａｏｆＳｈａｎｇｈａｉ

ｔｏｔｅｓｔ

ｃｅｎｔｒａｌｃｉｔｙｅｘｐｒｅｓｓｗａｙ．Ａｎｄ３８４ｉｎｃｉｄｅｎｔｄａｔａｗｅｒｅａｄｏｐｔｅｄ

ｔｈｅｐｒｅｄｉｃｔｉｏｎａｃｃｕｒａｃｙｏｆｔｈｉｓ

ｍｏｄｅｌ．ＴｈｅｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｉｎｃｉｄｅｎｔｔｙｐｅｉＳｔｈｅｆｉｒｓｔｌａｙｅｒｏｆｔｈｅｄｅｃｉｓｉｏｎｔｒｅｅａｎｄｄｉｆｆｅｒｅｎｔｉｎｃｉ．

ｄｅｎｔｈａｓｄｉｆｆｅｒｅｎｔｔｅｓｔａｔｔｒｉｂｕｔｅｓ．ＴｈｅｐｒｅｄｉｃｔｉｏｎａｃｃｕｒａｃｙｏｆａｎｃｈｏｒｄｕｒａｔｉｏｎｉＳ７９％ｗｉｔｈ１０ｍｉｎｕｔｅｓｗｈｉｌｅｔｈａｔｏｆａｃｃｉｄｅｎｔｍｅｔｈｏｄｂａｓｅｄ

ａｎ

ｅｒｒｏｒ

ｏｆ

ｄｕｒａｔｉｏｎｉＳ６５％ｗｉｔｈ

ａｃｃｕｒａｔｅ

ａｎｅｒｒｏｒ

ｏｆ２０ｍｉｎｕｔｅｓ．Ｓｏｔｈｅ

ｔｈｅ

Ｂａｙｅｓｉａｎ

ｂａｓｅｄ

ｏｎ

ｄｅｃｉｓｉｏｎ

ｏｒ

ｔｒｅｅ

ａｌｇｏｒｉｔｈｍｉｓｍｏｒｅ

ａｎｄｓｔａｂｉｌｉｚｅｄｔｈａｎｍｅｔｈｏｄ

Ｂａｙｅｓｉａｎ

ｍｅｔｈｏｄ

ｄｅｃｉｓｉｏｎｔｒｅｅｒｅｓｐｅｃｔｉｖｅｌｙ．ｅｎｇｉｎｅｅｒｉｎｇ；ｔｒａｆｆｉｃ

Ｋｅｙｗｏｒｄｓ：ｔｒａｆｆｉｃ

ｉｎｃｉｄｅｎｔ；ｉｎｃｉｄｅｎｔｄｕｒａｔｉｏｎ；ｐｒｅｄｉｃｔｉｏｎ

ｍｅｔｈｏｄ；Ｂａｙｅｓｉａｎ

ｍｅｔｈｏｄ；ｄｅｃｉｓｉｏｎｔｒｅｅ

交通拥堵已经成为世界上很多国家面临的主要对上海城市快速路的调查表明，仅中心区平均每天的交通事件达４０－８０次（包括抛锚和交通事故）．交

交通问题之一．有关研究表呼¨，由高速公路事件

引起的偶发性交通拥堵（如交通事故，抛锚车辆，天气变化等），已占城市快速路总拥堵的５０％－７５％．

通管理者必须充分了解交通事件的性质和严重程

度，以及道路的具体情况，从而实现有效的交通事件

收稿日期：２００７—０５—０９

基金项目：国家自然科学基金资助项目（７０４０１０１６）

作者简介：姬杨蓓蓓（１９８１一）．女．博士生，主要研究方向为交通工程，Ｅ－ｍａｉｌ：０５１０１２０００１＠ｍａａｉｌ．ｔｏｎｉ．ｅｄｕ．∞

孙立军（１９６３一），男，教授，博士生导师，工学博士，主要研究方向为道路与交通工程，Ｂｍ越ｌ：ｂ蛐＠髓ｍ．ｔｏｎｇｉｉ．ｅｄｕ．∞

万方数据　

同济大学学报（自然科学版）第３６卷

管理．然而，对于交通管理者而言，最困难是预估交

通事件的持续时间．预估准确，有助于决定采取适当的管理措施．

很多研究者在交通事件持续时间的预测方法研

究中有所尝试，提出了多种预测方法，如基于概率的

预测模型、线性回归模型、决策树模型、非参数回归模

型、模糊逻辑模型等【２－３］．除了决策树模型外，其他模

型还需要了解事件的详细信息，因此很难用于实际的交通事件管理中．本文采用基于贝叶斯方法的决策树分类算法【４Ｊ，建立交通事件持续时间的决策树．该方法的主要特点是提高了精度和分类的鲁棒性，可更好

地处理不一致、不完整和噪声干扰数据．

１模型的建立

１．１贝叶斯方法

朴素的贝叶斯分类方法是贝叶斯方法中实用性很高的一种学习方法，其关键是使用概率表示各种形式的不确定性．在选择某事件面临不确定性时，在

某一时刻假定此事件会发生的概率，然后根据不断

获取的新信息修正此概率．修正前和修正后的概率分别为先验概率、后验概率．

每个数据样本用一个，ｚ维特征向量Ｘ＝｛ｚｌ，ｚ２，…，ｚ。｝表示，分别描述对，１个属性Ａ１，Ａ２，…，Ａ。样本的，ｚ个度量．假定有ｍ个类Ｃ１，Ｃ２，…，Ｃ优，给定１个未知的数据样本ｘ（即没有类标号），分类器将预测ｘ属于具有最高后验概率（条件ｘ下）的类．也就是说，朴素贝叶斯分类将未知的样本

分配给Ｇ（１≤ｉ≤ｍ），当且仅当Ｐ（ｃｆＩｘ）＞Ｐ（Ｇｘ），对任意的歹＝１，２，…，ｍ，Ｊ≠ｉ．这样，最大化为Ｐ（Ｇｘ），最大的类为最大后验假定．由贝叶斯定理

Ｐ（Ｇ㈣＝塑景产（１）

由于Ｐ（Ｘ）对于所有类为常数，只需要Ｐ（ｘ

Ｃｉ）Ｐ（Ｇ）最大即可．其中，Ｐ（Ｇ）＝＆／ｓ，＆是类Ｇ

中的训练样本数，而ｓ是训练样本总数．为了简化计算，可以做类条件独立的朴素假定，即属性值相互独

立（属性问不存在依赖关系）．这样

Ｐ（ｘ

ｃｆ）＝ｌ＇【Ｐ（戤ｌ

Ｇ）

（２）

其中，概率Ｐ（ｚｌＣｉ），Ｐ（ｚ２Ｇ），…，Ｐ（ｚ。ＩＧ）＂－－Ｉ

以由ｉ／ｌｌ练样本估计．

万　

方数据对未知样本ｘ分类，也就是对每个类Ｃｆ，计算

Ｐ（ｘｌＣｉ）Ｐ（Ｃｉ）．样本ｘ被指派到类Ｇ，当且仅当Ｐ（ＧＸ）＞Ｐ（Ｃｉｘ），１≤．ｆ≤ｍ，歹≠ｉ．换言之，ｘ

被指派到其Ｐ（ＸＩＧ）Ｐ（Ｇ）最大的类．

１．２决策树

决策树分类方法是应用最广泛的逻辑方法之

一，它从一组无次序、无规则的事例中，推理出决策树表示形式的分类规则．决策树分类方法采用自顶向下的的递归方式，在决策树的内部节点比较属性

值，并根据不同的属性值判断从该节点向下的分支，在决策树的叶节点得到结论．所以，从决策树的根到

叶节点的一条路径就对应着一条合取规则，整棵决策树就对应着一组析取表达式规则．基于决策树的分类算法的一个最大的优点就是学习过程中不需要

使用者全面了解背景知识．

１．３基于贝叶斯推理的决策树【４】

在原有决策树Ｔ的基础上，在Ｔ中加人新的节点，此节点位于Ｔ的两个属性测试节点之间，能够

根据贝叶斯原理计算此节点．此节点称为贝叶斯节点，具有这样节点的决策树称作贝叶斯决策树．本文用基于贝叶斯方法的决策树分类算法，建立了交通事件持续时间预测模型．图１为基于贝叶斯推理的

决策树模型示意图．

属性节点

条件节点贝叶斯节点

属性节点

图１基于贝叶斯方法的决策树模型

Ｆｉｇ．１

Ｄｅｃｉｓｉｏｎｔｒｅｅ

ａｌｇｏｒｉｔｈｍｍｏｄｅｌｂａｓｅｄＯｎ

Ｂａｙｅｓｉａｎ

Ｍｅｔｈｏｄ

经过条件节点口后，判断贝叶斯条件的０和厂

值．０表示节点不进行任何计算，直接根据条件口转向下一属性测试节点；厂表示需要计算厂的值．这里

的函数厂是朴素的贝叶斯公式，即如果贝叶斯节点需要厂值，则下一个属性节点的选择依赖于两点：

①属性测试条件口；②函数厂的值．

基于贝叶斯方法的决策树分类算法的基本思想

是：对于能够用信息增益方法确切选择某个属性的

分支，选取贝叶斯节点的０值；对于数据对象具有二义性，或属性值丢失的数据，如某一交通事件的伤亡

第３期

姬杨蓓蓓，等：基于贝叶斯决策树的交通事件持续时间预测

情况未知，则选取．厂值，利用贝叶斯方法确定其后

验概率，选取后验概率最大的那一类，此类即为数据

对象所属的类别．其中，信息增益法是基于信息论中

熵的概念［５Ｊ，算法选择具有最高信息增益的属性作为当前节点的测试属性．

设ｓ是５个数据样本的集合，假定类标号属性

具有ｍ个不同值，定义ｍ个不同类Ｇ（ｉ＝１，２，…，

ｍ）；设＆是类ｅ中的样本数，对一个给定的样本分类所需的期望信息由下式给出：

Ｊｅ

Ｉ（ｓ１，ｓ２，…，％）＝一∑Ｐｆｌｂ（Ｐｉ）

（３）

ｆ＝ｌ

其中：Ｐ；是任意样本属于Ｇ的概率，一般可用ｓ。／ｓ

来估计；ｌｂ是以２为底的对数．设属性Ａ具有７３个

不同值｛ａ１，口２，…，ａ。｝；可以用属性Ａ将Ｓ划分为口个子集｛ｓｌ，５２，…，踮｝．其中，岛包含Ｓ中这样一些样本，它们在Ａ上具有值ａｊ．如果Ａ作为测试属

性，则这些子集对应于由包含集合Ｓ的节点生长出

来的分支．设ｓ打是子集ｓｊ中类Ｇ的样本数，根据Ａ划分成子集的熵由下式给出：

Ｅ（Ａ）＝宴笪竿÷立ｍ∽趼…，％）

』＝１

ｏ

（４）

熵值越小，子集划分的纯度越高．由上面给出的

期望信息计算式，对于给定子集％其期望信息为

Ｊｅ

Ｉ（Ｓｌｊ，５巧，…，ｓｍｊ）＝一２ｊ户巧ｚ６（户巧）

（５）

其中，，ｐｆｆ＝ｓ∥ｈｌ是ｓｉ中的样本属于类ｃｉ的概率．

由期望信息和熵值可以得到对应的信息增益值．对于在Ａ上分支将获得的信息增益，可以由下

面的公式得到：

Ｇ（Ａ）＝Ｊ（５１，ｓ２，…，ｓ。）一Ｅ（Ａ）

（６）

算法计算每个属性的信息增益，并选取具有最

高增益的属性作为给定集合的测试属性．对被选取的测试属性创建一个节点，并以该属性标记对该属

性的每个值创建一个分支，并据此划分样本．

２数据来源

收集大量的交通事件数据对交通事件分类研究和准确地预测交通事件持续时间有着非常重要的意义．本研究采用“上海市城市快速路监控中心”的交

通事件数据作为分析数据源．上海市城市快速路监

控中心（简称高架道路监控中心）隶属于上海市市政工程管理处，于２００２年成立，承担着上海市高架道

万　

方数据路交通监控系统、地面交叉口交通信息采集系统的建设，以及交通信息的发布、交通分析评价等工作．在监控中心庞大的数据系统中，有交通事件较详细的记录，包括日常城市快速路的养护、处理城市快速路上的抛锚车辆和重大交通事故等．

选择与目前处理事件的条件差异不大的数据来标定模型，减少了数据的离散性，避免了由于数据离散性本身对模型精度的影响．所分析的交通事件数据是２００７年１～５月发生在上海市中心城区高架道路上的车辆抛锚和交通事故，选取了１５３６个交通

事件数据分析研究，将样本随机分为两类，一类用于决策树的标定，标定数据为１１５２个，占样本总数的

７５％；另一类验证生成决策树，共３８４个，占样本总

数的２５％．

表１为标定和验证模型的交通事件数据的描述性统计．由表可见，小于２０ｍｉｎ的事件比例占一半

以上．可见，持续时间较短的交通事件占的比例较

大．这主要是因为中心区快速路的大部分交通事件

为抛锚事件，一般对抛锚事件采用牵引车直接牵引

的方法，随着牵引车工作效率的提高，抛锚事件的持续时间大大缩短．因此，中值也偏小．标定数据的中值为１６ｍｉｎ，而验证数据的中值为２５ｍｉｎ．交通事件持续时间的标准差受到大量抛锚数据的影响，也偏小．标定数据和验证数据的各项指标具体见表１．

表１用于标定和验证的交通事件数据的描述性统计

Ｔａｂ．１

Ｄｅｓｃｒｉｐｔｉｖｅｓｔａｔｉｓｔｉｃｏｆｔｒａｆｆｉｃｉｎｃｉｄｅｎｔｄａｔａｆｏｒｖａｌｉｄａｔｉｏｎａｎｄｃａｌｉｂｒａｔｉｏｎ

３决策树模型的建立和检验

构造好的决策树，关键在于选择好的逻辑判断或属性．对于同一个问题，可以构造出很多决策树．

一般情况下。树越小，树的预测能力越强．要构造尽可能小的决策树，关键在于选择恰当的逻辑判断或

属性．笔者应用上述基于贝叶斯方法的决策树算法，

同济大学学报（自然科学版）

第３６卷

对１１５２个交通事件数据进行分析，建立中心城区

及车辆数；③伤亡人数；④是否涉及大巴士；⑤是

高架道路的交通事件持续时间预测决策树模型．

影响交通事件持续时间的因素很多．表２给出了各种影响因素，实际收集的交通事件数据并没有包括所有的影响因素，只包括：①事件类型；②涉

否涉及货车；⑥货车上有否抛洒物；⑦是否工作日；⑧是否高峰期；⑨天气因素；⑩是否有交警到

位；⑩是否有救护车救援；⑩是否有消防车救援．

表２交通事件持续时间的影响因素

Ｔａｂ．２

Ｉｎｆｌｕｅｎｃｅｆａｃｔｏｒｓｏｆｔｒａｆｆｉｃｉｎｃｉｄｅｎｔｄｕｒａｔｉｏｎ

事件的其他影响因素

发生的时间

发生的地点

需要的救援措施

鲜啡工作日１无０斑ｍ臻髅老奎趁耧

憩概

婿鹳阵焙射车

髅棼有无

２

ｓ≥４磐票黎器鋈莩有无有无有无有无

性：车辆类型，伤亡情况，车辆数目；火烧事件持续时间的测试属性：车辆类型，伤亡情况，设施损坏情况；追尾事件持续时间的测试属性：涉及车辆数，车辆类型。有无伤亡；碰撞事件持续时间的测试属性：伤亡情况，有否死亡，车辆类型，地面散落物．因此，可得出上海市中心城区快速路的事件持续时间的关键影响因素是事件类型和严重性．其他因素如是否高峰、是否工作日、是否有其他方式的救援，并非主要的．

根据每个影响因素的信息增益值，可以得到决

策树；对于有些事件的某些信息不能完全获得，如某

一交通事件刚发生时。不知道确切的伤亡人数，此

时，可根据朴素的贝叶斯方法，确定其分类．计算第一个分支的１２个影响因素（属性）的增益值分别为

Ｇ（事件类型）＝０．３６３Ｇ（伤亡人数）＝０．２１３

Ｇ（货车上有否抛洒物）＝０．０１４Ｇ（是否是高峰期）＝０．００６Ｇ（是否有交警到位）＝０．０６７Ｇ（是否有消防车救援）＝０．１１０Ｇ（涉及车辆数）＝０．２６８Ｇ（车辆类型）＝０．１４７Ｇ（是否工作日）＝０．００９Ｇ（天气因素）＝０．００４Ｇ（有否救护车救援）＝０．１０９

由于事件类型的增益值最高，因此，它首先作为测试属性分类，如图２所示．若事件类型中有不完全的属性值或属性值有二义性（如交通事件中的追尾和

．

图２决策树的顶层结构

Ｆｉｇ．２

Ｔｏｐｓｔｒｕｃｔｕｒｅｏｆｔｈｅｄｅｃｉｓｉｏｎｆｒｅｅ

ａｌｇｏｒｉｔｈｍ

由决策树可以看出，每一类事件各层的测试属性不尽相同．如翻车和火烧的第一层为车辆类型，而追尾的第一层为车辆数，碰撞的第一层为伤亡情况．

碰撞有时很难区分），则按贝叶斯方法计算，再分类．

依次寻找五种类型交通事件的下一层的测试属

性，最后得出决策树，见图３．

抛锚事件的持续时间较短，且数据库中对抛锚事件的属性描述也较少，因此，根据车辆能否移动进

叶子节点给出了各分类事件的平均持续时间及其变

化范围．从预测结果可以看出，事件的持续时间变异性较大，这主要是因为影响因素较多，如表２中的影响因素不能全部获得，而且还有一些不可获得的属

行分类．由分类结果得出平均持续时间较短．翻车事件持续时间，根据各属性的增益值，得到分类测试属

性，如肇事者的年龄、喜好，车辆使用年限和性能等．

万方数据　

第３期

姬杨蓓蓓，等：基于贝叶斯决策树的交通事件持续时间预测

３２３

ａ抛锚事件

ｃ火烧事件持续时间

ｄ追尾事件持续时间

ｃ碰撞事件持续时间

围３各决策树结构（单位：ｍｉｎ｝

Ｆｉｇ．３

Ｄｅｃｉｓｉｏｎｔｒｅｅｓｔｒｕｃｔｕｒｅｏｆａｌｌｋｉｎｄｓｏｆ

ｉｎｃｉｄｅｎｔｓ（ｕｎｉｔ：ｒａｉｎ）

万

方数据

博泰典藏网btdcw.com包含总结汇报、自然科学、计划方案、农林牧渔、医药卫生、党团工作、出国留学、经管营销以及基于贝叶斯决策树的交通事件持续时间预测_图文等内容。

本文共2页12

本文关键词：基于贝叶斯决策树的交通事件持续时间预测，由笔耕文化传播整理发布。

本文编号：103782

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jiaotonggongchenglunwen/103782.html

上一篇：西安市城市道路交通管理策略研究.pdf
下一篇：马璐, 导师:马荣国,道路因素对道路交通安全的影响分析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|