当前位置:主页 > 科技论文 > 自动化论文 >

复杂环境下数据流自适应学习策略及其应用研究

发布时间:2021-09-07 03:43
  在许多的应用领域中,如电子商务、入侵监控、物联网环境监控等,正在以惊人的速度产生大量的数据流,其中蕴含着丰富的有价值信息。对这些海量数据的提取、处理以及进一步的分析是当前数据挖掘领域的一大研究热点。与一般数据环境相比,数据流具有高速到达、海量数据特点,传统数据挖掘策略无法较好适应其环境。因此,在这种复杂环境下,采用合理的学习策略是数据流挖掘领域中的重点。数据流中的分类问题主要存在以下挑战:第一,数据流数据分布的变化多样且未知性,导致了分类器的分类性能损失;第二,数据流中类别分布不平衡现象,对学习策略的要求进一步加大;第三,数据流中的噪声数据往往对分类模型的选择策略造成不同程度的干扰。本文将围绕上述问题,对复杂环境下数据流的自适应学习策略进行了研究,主要工作包括:(1)提出了基于深度属性加权的自适应集成策略,改善对具有噪声干扰的数据流环境适应性。该策略采用增量式学习和集成学习机制。依据不同属性值对分类贡献进行局部加权,并设计了动态自适应阈值,同时组合分类器置信度和分类器精度权重的双重权重策略,进一步改善对基分类器的权重分配。有效控制噪声数据或无关属性干扰,并改善对概念漂移适应性。通过合成... 

【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校

【文章页数】:74 页

【学位级别】:硕士

【部分图文】:

复杂环境下数据流自适应学习策略及其应用研究


图2-1几种不同类型的概念漂移??ure-

架构图,自适应学习,架构,概念


?(2-1)??这里y表示在时间点/输入特征x与类标>■之间的联合分布。??根据时间变化的方式,概念漂移可分为四种[3],图2-1为四种不同类型概念漂??移的示意图:??(1)

过程图,过采样,过程


通常包括对少数类实例进行过采样,或对多数类实例进行欠采样或组合??两种方式进行采样。??简单的过采样技术将复制少数类实例,示意图如图2-3所示。然而,由于样本??仅仅是复制的,因此对随机过采样数据进行训练的分类器很可能会受到过度拟合??的影响[5G,51]。基于上述原因,Chawla提出了?SMOTE算法,避免了随机过采样所??面临的过度拟合风险。该技术不仅仅复制现有的观测结果,而是生成合成数据[52]。??然而,该算法在处理不平衡和噪声方面存在一些缺点:SMOTE随机选择少数例子??以均匀概率进行过采样的事实。Douzas等人采用hmeans聚类算法结合SMOTE??过采样,以重新平衡偏态分布的数据集。它设法通过仅在安全区域进行过采样来??避免产生噪声。解决了类间的不平衡和类内的不平衡,通过消除稀少的少数类别??来解决小的分离问题[53]。??〇?〇?〇??交广、、立?U?☆广;☆?CJ?☆??'、?一?乂?/—、'?,一、

【参考文献】:
期刊论文
[1]具有回忆和遗忘机制的数据流挖掘模型与算法[J]. 赵强利,蒋艳凰,卢宇彤.  软件学报. 2015(10)



本文编号:3388774

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3388774.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户077b1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com