基于决策树的三支决策概念漂移检测
发布时间:2024-05-10 23:44
近年来,移动互联网、物联网等技术高速发展,各种形式的网络应用走进日常生活中,例如移动支付,传感器网络等。这些应用每天都在处理海量的数据,并且提供实时的网络服务,例如数据查询和个性化推荐,智能服务等。许多应用的数据以数据流的形式产生。由于数据流具有海量、连续快速产生和随时间不断动态变化的特点,数据流中的数据处理必须满足实时性的要求。传统的数据挖掘算法面临巨大挑战,需要针对数据流的本身特点和应用特点提出相应的算法。同时,数据流中存在概念漂移问题,数据中的概念会随着时间和背景环境发生改变,数据流中的模型需要及时发现这些变化,对这些变化进行检测,使模型能够及时对新概念进行学习。而传统的概念漂移检测方法一般根据某些检测指标将概念划分为发生漂移、没有发生漂移两类。这些方法容易受到噪音等不确定因素的影响,将变化速度较缓慢的概念漂移判定为概念没有漂移,将不确定因素造成的检测指标变化判定为概念发生漂移,检测准确率较低。针对这个问题,本文提出一种三支决策的概念漂移检测算法,提高了检测性。1.本文提出一种三支决策概念漂移检测算法。利用决策树学习数据流中的概念,然后不断检测概念是否发生漂移。决策树中的每棵子树...
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
本文编号:3969198
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
图3.1三支决策概念漂移检测框架
先介绍算法的总体框架,然后介绍算法各部分的详细流程。3.1三支决策概念漂移检测框架本文算法框架如图3.1所示。整个过程分为两个阶段:离线计算阶段和在线计算阶段。在离线计算阶段,从数据流中取出一部分样本生成初始概念树,这里概念树是本文提出的一种决策树分类器。离线阶段学习得到数....
图3.2t=4根结点分裂后树图
图3.2t=4根结点分裂后树图图3.3初始概念树的分枝和叶结点。重复上述过程,直到。当时,生成如图3.3所示初始概念树。在上述算法中,假设概念树含有个结点,属性个数为,每个属性具有属性值个数最多为,类标个数为个,则最多需要的空间来存储统计信息。当数据流....
图3.3初始概念树
图3.2t=4根结点分裂后树图图3.3初始概念树的分枝和叶结点。重复上述过程,直到。当时,生成如图3.3所示初始概念树。在上述算法中,假设概念树含有个结点,属性个数为,每个属性具有属性值个数最多为,类标个数为个,则最多需要的空间来存储统计信息。当数据流....
图3.4t=40时的概念树
树的分类错误率,设置概念树各子树的初始阈值。然后依照算法2对t=33到t=40的样本进行分类并更新决策树。当t=40时,生成如图3.4所示概念树,计算分类错误率并进入第一次概念漂移判定,并对发生漂移的子树进行处理。表3.9数据流SU1a2a3ac....
本文编号:3969198
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3969198.html