面向概念漂移和不均衡数据流的分类算法研究
发布时间:2021-06-13 18:27
近年来随着大数据和云计算的迅速发展,在互联网等方面源源不断地产生大量的数据流。学者们为了获取并分析这些领域的数据流中隐含的大量的有用信息,为此对数据流挖掘领域展开了深入研究。然而,静态数据与数据流并不完全相同,数据流的特点是快速性、连续性、多变性、无限性等。特点的不同决定了数据流挖掘算法并不能完全沿用传统的数据挖掘算法。不仅如此,数据流中会产生概念漂移现象即数据的分布会随着时间的变化而随之变化,这一现象无形中对数据流挖掘也造成了巨大的难度。与静态数据相同的是,数据流中也存在类不均衡现象,这些都是流挖掘过程中不得不面对和迫切需要解决的重点和难点问题。因此,本文主要围绕以上问题,对数据流中的概念漂移现象和类不均衡问题展开深入研究,其主要的工作内容包括:针对数据流中概念漂移问题,本章介绍了基于数据分布的概念漂移检测算法,主要分为概念漂移检测模块和概念重现检测模块。该算法不仅能处理数据流中的概念漂移现象,还可以检测到重现概念问题。首先利用概念漂移检测算法检测出数据流中的概念漂移问题,然后在概念重现模块中解决重现漂移的问题。最后在数据流机器学习实验分析平台MOA上对该算法进行大量验证与分析。结果...
【文章来源】:重庆邮电大学重庆市
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
概念漂移类型
重庆邮电大学硕士学位论文2. 缓慢型概念漂移(Gradual Concept Drift):指当数据流中概念发生了变化,但变化非常缓慢且幅度小的现象,例如车辆轮胎的磨损程度,若模型不考虑轮磨损,会使车辆的使用寿命大大降低。如图 2.2(b)所示。3. 尖峰(Blip):指表示数据流的特有时间。数据流中的尖峰和静态数据中的离有点相似,都是随机出现的,一般都要经过数据处理。例如,诈骗短信,欺易及异常入侵等。如图 2.2(c)所示。4. 噪声(Noise):噪声与概念漂移并没有直接的关系,只是噪声数据在数据流的过程中不被处理的话会对模型的分类精度产生较大的影响,导致模型分析不准确。而噪声多是在传输过程中产生的,导致数据会相比于原来有所偏倚 2.2(d)所示。
重现漂移
【参考文献】:
期刊论文
[1]一种不平衡数据流集成分类模型[J]. 欧阳震诤,罗建书,胡东敏,吴泉源. 电子学报. 2010(01)
本文编号:3228080
【文章来源】:重庆邮电大学重庆市
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
概念漂移类型
重庆邮电大学硕士学位论文2. 缓慢型概念漂移(Gradual Concept Drift):指当数据流中概念发生了变化,但变化非常缓慢且幅度小的现象,例如车辆轮胎的磨损程度,若模型不考虑轮磨损,会使车辆的使用寿命大大降低。如图 2.2(b)所示。3. 尖峰(Blip):指表示数据流的特有时间。数据流中的尖峰和静态数据中的离有点相似,都是随机出现的,一般都要经过数据处理。例如,诈骗短信,欺易及异常入侵等。如图 2.2(c)所示。4. 噪声(Noise):噪声与概念漂移并没有直接的关系,只是噪声数据在数据流的过程中不被处理的话会对模型的分类精度产生较大的影响,导致模型分析不准确。而噪声多是在传输过程中产生的,导致数据会相比于原来有所偏倚 2.2(d)所示。
重现漂移
【参考文献】:
期刊论文
[1]一种不平衡数据流集成分类模型[J]. 欧阳震诤,罗建书,胡东敏,吴泉源. 电子学报. 2010(01)
本文编号:3228080
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3228080.html