概念漂移数据流分类算法研究
发布时间:2021-04-16 20:43
数据流分类问题是数据挖掘领域中重要的研究方向之一,其主要特征为数据序列以流的形式不断地产生,如传感器网络异常检测、信用卡欺诈行为监测、天气预报和电价预测等实际问题中,新的数据序列都以快速、实时、连续的形式不断地到达.存在于数据流中的核心问题之一是数据流中往往存在概念漂移现象,即数据分布会随着时间的推移而发生改变.这种数据分布的不稳定特性大大影响了分类模型的性能和更新代价.在概念漂移数据流环境中,概念经过一段时间之后可能重复出现,这种概念重现现象导致算法不断地在相同的概念上学习新模型,浪费模型训练时间甚至降低其总体性能.另外,数据类分布不平衡以及实例属于多标签等问题也影响着模型在概念漂移数据流上的分类性能,其中前者期望模型能更准确预测少数类实例,而后者期望模型能准确预测实例所属的标签集合.针对以上问题,本文在深入分析包含概念漂移的数据流特性及相关理论的基础上,研究并提出新的面向概念漂移数据流问题的分类算法.主要贡献和创新点如下.(1)提出一种基于自适应滑动窗口的数据流集成算法(AWDE).不同于传统集成算法,AWDE使用自适应滑动窗口检测方法为每个基分类器自适应地构建相应训练数据集,具体...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:138 页
【学位级别】:博士
【部分图文】:
图1.2数据流中的概念漂移??Figure?1.2?Concept?drift?in?data?stream??
亟待解决的问题,即多种类型概念漂移、概念重复出现、类不平衡以及多标签数据??流等问题,结合集成学习方法,提出一系列有效的算法,并通过实验验证算法的有??效性.具体地,全文共分为7章,主要结构如图1.3所示.??第1章首先阐述数据流挖掘的研究背景及意义,接着,介绍国内外研究现状,??然后,分析概念漂移数据流分类过程中亟待解决的问题,最后,介绍本文主要研究??内容及论文组织结构.??第2章介绍数据流分类过程中概念漂移处理相关研宄工作.首先,介绍数据??流分类模型与概念漂移相关的概念;接着,对概念漂移进行分类,并分析其产生的??主要原因;然后,对处理概念漂移的方法做了重点介绍;最后,介绍数据流分类算??法评价体系和本文所采用的实验平台.??研宄对象:概念漂移环境下数据流分类?????j研宄问题、??|?<?念漂移处I??i?V?i??*?I??i?
Concept?Drift)、渐变式(Gradual?Concept?Drift)、增量式(Incremental?Concept?Drift)??和重现式概念漂移(Recurring?Concept?Drift).??如图2.2?(a)所示,若在一段较短的时间内,数据流中数据分布突然地被另一??个完全不同的分布所取代,则称此时发生了突变式概念漂移.这种变化通常在毫无??征兆的情况下发生,会使准确率急剧降低甚至导致模型完全失效.应对此类概念漂??移,要求模型具有很高的数据敏感度,能够及时发现这种改变,并对模型进行相应??的更新,以适应新的数据分布.??渐变式概念漂移是一种慢速率的改变,即数据变化幅度非常小.如图2.2(b)??所示,通常是经过一段较长时间之后才观察到,且概念漂移发生前后概念之间有或??多或少的相似.??增量式概念漂移与渐变式概念漂移非常类似,如图2.2?(c)所示,表示概念是??增量式发生改变的.在变化期间
【参考文献】:
期刊论文
[1]基于显露模式的数据流贝叶斯分类算法[J]. 杜超,王志海,江晶晶,孙艳歌. 软件学报. 2017(11)
[2]基于信息熵的自适应网络流概念漂移分类方法[J]. 潘吴斌,程光,郭晓军,黄顺翔. 计算机学报. 2017(07)
[3]具有回忆和遗忘机制的数据流挖掘模型与算法[J]. 赵强利,蒋艳凰,卢宇彤. 软件学报. 2015(10)
[4]集成学习中的多样性度量[J]. 孙博,王建东,陈海燕,王寅同. 控制与决策. 2014(03)
[5]概念漂移数据流分类研究综述[J]. 文益民,强保华,范志刚. 智能系统学报. 2013(02)
[6]针对高速数据流的大规模数据实时处理方法[J]. 亓开元,赵卓峰,房俊,马强. 计算机学报. 2012(03)
[7]一种基于双层窗口的概念漂移数据流分类算法[J]. 朱群,张玉红,胡学钢,李培培. 自动化学报. 2011(09)
[8]一种不平衡数据流集成分类模型[J]. 欧阳震诤,罗建书,胡东敏,吴泉源. 电子学报. 2010(01)
[9]基于多分类器的数据流中的概念漂移挖掘[J]. 孙岳,毛国君,刘旭,刘椿年. 自动化学报. 2008(01)
[10]一种高效的数据流挖掘增量模糊决策树分类算法[J]. 王涛,李舟军,胡小华,颜跃进,陈火旺. 计算机学报. 2007(08)
本文编号:3142139
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:138 页
【学位级别】:博士
【部分图文】:
图1.2数据流中的概念漂移??Figure?1.2?Concept?drift?in?data?stream??
亟待解决的问题,即多种类型概念漂移、概念重复出现、类不平衡以及多标签数据??流等问题,结合集成学习方法,提出一系列有效的算法,并通过实验验证算法的有??效性.具体地,全文共分为7章,主要结构如图1.3所示.??第1章首先阐述数据流挖掘的研究背景及意义,接着,介绍国内外研究现状,??然后,分析概念漂移数据流分类过程中亟待解决的问题,最后,介绍本文主要研究??内容及论文组织结构.??第2章介绍数据流分类过程中概念漂移处理相关研宄工作.首先,介绍数据??流分类模型与概念漂移相关的概念;接着,对概念漂移进行分类,并分析其产生的??主要原因;然后,对处理概念漂移的方法做了重点介绍;最后,介绍数据流分类算??法评价体系和本文所采用的实验平台.??研宄对象:概念漂移环境下数据流分类?????j研宄问题、??|?<?念漂移处I??i?V?i??*?I??i?
Concept?Drift)、渐变式(Gradual?Concept?Drift)、增量式(Incremental?Concept?Drift)??和重现式概念漂移(Recurring?Concept?Drift).??如图2.2?(a)所示,若在一段较短的时间内,数据流中数据分布突然地被另一??个完全不同的分布所取代,则称此时发生了突变式概念漂移.这种变化通常在毫无??征兆的情况下发生,会使准确率急剧降低甚至导致模型完全失效.应对此类概念漂??移,要求模型具有很高的数据敏感度,能够及时发现这种改变,并对模型进行相应??的更新,以适应新的数据分布.??渐变式概念漂移是一种慢速率的改变,即数据变化幅度非常小.如图2.2(b)??所示,通常是经过一段较长时间之后才观察到,且概念漂移发生前后概念之间有或??多或少的相似.??增量式概念漂移与渐变式概念漂移非常类似,如图2.2?(c)所示,表示概念是??增量式发生改变的.在变化期间
【参考文献】:
期刊论文
[1]基于显露模式的数据流贝叶斯分类算法[J]. 杜超,王志海,江晶晶,孙艳歌. 软件学报. 2017(11)
[2]基于信息熵的自适应网络流概念漂移分类方法[J]. 潘吴斌,程光,郭晓军,黄顺翔. 计算机学报. 2017(07)
[3]具有回忆和遗忘机制的数据流挖掘模型与算法[J]. 赵强利,蒋艳凰,卢宇彤. 软件学报. 2015(10)
[4]集成学习中的多样性度量[J]. 孙博,王建东,陈海燕,王寅同. 控制与决策. 2014(03)
[5]概念漂移数据流分类研究综述[J]. 文益民,强保华,范志刚. 智能系统学报. 2013(02)
[6]针对高速数据流的大规模数据实时处理方法[J]. 亓开元,赵卓峰,房俊,马强. 计算机学报. 2012(03)
[7]一种基于双层窗口的概念漂移数据流分类算法[J]. 朱群,张玉红,胡学钢,李培培. 自动化学报. 2011(09)
[8]一种不平衡数据流集成分类模型[J]. 欧阳震诤,罗建书,胡东敏,吴泉源. 电子学报. 2010(01)
[9]基于多分类器的数据流中的概念漂移挖掘[J]. 孙岳,毛国君,刘旭,刘椿年. 自动化学报. 2008(01)
[10]一种高效的数据流挖掘增量模糊决策树分类算法[J]. 王涛,李舟军,胡小华,颜跃进,陈火旺. 计算机学报. 2007(08)
本文编号:3142139
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3142139.html