数据流动态加权策略与自适应学习研究
发布时间:2020-06-26 17:51
【摘要】:数据流在生活中无处不在,每时每刻都在快速产生数据流数据,如ATM交易、传感器网络和股票交易等众多应用领域都会产生数据流。数据流可视为随时间变化的连续到达的数据序列,是一种海量的动态数据。不同于普通的数据挖掘技术,数据流挖掘要求一次扫描、快速处理,并且模型要具有动态更新的能力,因此采用一种高效的自适应学习策略是数据流挖掘的重点研究问题。目前的数据流挖掘算法主要面临两大问题:概念漂移与特征漂移。数据流中的目标概念会随着时间的推移而发生变化,这种变化被称为概念漂移。同时数据流中的特征相关性也会随时间发生变化,这使得特征子集与目标概念不再相关,从而产生一种特殊类型的漂移——特征漂移。概念漂移与特征漂移的发生会严重影响分类器的分类精度,目前已有的处理概念漂移算法的处理效率和效果仍然不够理想,并且大多数数据流算法并没有充分考虑特征漂移的情况。为此本文对数据流中的概念漂移与特征漂移问题展开了研究,对实例以及特征使用动态加权策略以适应概念漂移与特征漂移,也就是使分类器具有自适应学习的能力,主要工作包括:(1)提出了实例动态加权贝叶斯分类算法,用于解决概念漂移问题。越新的实例对构建分类器的影响就越大,因此本文提出了一个时间衰减函数,使用遗忘机制对数据块内的实例进行权重的衰减,并设置了一个权重阈值,随着每次迭代,较旧实例的权重会降低,直到它们低于这个阈值而被丢弃。然后将实例加权模块应用到贝叶斯分类器中对原始贝叶斯分类器进行改进以适应概念漂移。实验表明,该方法能有效处理数据流挖掘中的概念漂移问题。(2)提出了特征动态加权贝叶斯分类算法,用于解决特征漂移问题。对于数据流动态特征空间,采用了基于相关性的特征权重计算方法,使用滑动窗口技术跟踪特征与目标概念以及其他特征之间的相关性变化趋势,并计算特征权重。同时为贝叶斯建立特征动态加权模型,减少特征漂移带来的影响,学习到的特征权重可整体改善贝叶斯模型在特征漂移数据流中的分类性能。实验表明,该算法的分类性能相较于其他算法得到了一定的提升。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13;TP181
【图文】:
数据流挖掘Pigl叮e2-1DataStre翻.Mi幻ing
图2-2集成分类模型逡逑Figure邋2-2邋The邋ensemble邋classification逡逑
本文编号:2730679
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13;TP181
【图文】:
数据流挖掘Pigl叮e2-1DataStre翻.Mi幻ing
图2-2集成分类模型逡逑Figure邋2-2邋The邋ensemble邋classification逡逑
【参考文献】
相关期刊论文 前1条
1 廖国琼;吴凌琴;万常选;;基于概率衰减窗口模型的不确定数据流频繁模式挖掘[J];计算机研究与发展;2012年05期
本文编号:2730679
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2730679.html