面向流数据的聚类算法改进及其服务化实现
发布时间:2021-04-02 05:31
随着工业信息化和传感器网络的飞速发展,在网络监控、工业控制、股票交易、互联网通信等诸多领域中产生了连续到达、实时变化的数据流。规模巨大的流数据中蕴含了大量的价值信息,数据挖掘技术因为能够发现海量数据中的有效信息而成为流数据领域的热点研究对象。其中,实时流数据上的聚类分析是数据挖掘中的主要热点之一。通过聚类可以将数据集合分割为几个称为簇或者类别的子集,使同一簇中的对象具有尽可能大的相似性,不同簇的对象具有尽可能大的相异性。通过聚类分析对数据集合进行合理划分,有助于识别流数据群组中隐含的模式信息,异常数据和波动事件等等。Clu Stream算法提出一种在单遍扫描流数据时的两阶段聚类框架,在线更新阶段使用微簇快照存储聚类概要信息,并在离线分析阶段使用金字塔时间框架响应不同粒度的聚类请求。但是其在窗口划分和簇结构更新时没有考虑历史数据的影响,无法体现新旧数据的重要性差异。同时其固定的微簇总数也导致其在处理类簇特征演化上存在一定缺陷,没有及时反映类簇的分裂融合等情况。本文通过提出一种基于Clu Stream的聚类改进算法,在有效识别新旧不同类簇的同时提升原算法的准确度和性能,并提出一种针对流数据...
【文章来源】:北方工业大学北京市
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
金字塔时间框架
第四章分布式流数据聚类服务实现36经过窗口计算后的数据即是最终的结果,同样需要将其输出,这里依然选用消息队列Kafka作为输出源,以满足进一步的数据挖掘需求或者可视化业务。至此,分布式数据流聚类算法的平台实现完毕,图4-4给出了算法在Flink中的物理执行拓扑图。图4-4分布式聚类算法物理拓扑图图4-5分布式聚类算法运行模块图在系统应用层面,如图4-5,对于流入计算平台的数据流,将按照轮询策略分发至数据源算子下游的处理算子,每个到达的数据点将在处理算子中执行在线微簇更新算法,依次迭代更新全局的微簇概要信息。考虑到将有多个节点密度地读写微簇概要信息,所以这里需要考虑如何维护在分布式环境的读写一致性问题。即微簇结构如何保存,保存在哪里,如何更新到各个子节点以及怎么保证多次读写之间不被重复和覆盖。这里选择使用Flink状态管理中的BroadcastState,建立一条专门的状态流,与正常的数据里相连接,将在状态流中将微簇结果广播至正常数据流的子节点,在子节点中对微簇结构进行迭代更新,并在到达下一算子后进行汇总更新。当一个滑动窗口处理完毕,其概要信息汇聚到下游的离线算子中输入流输入流输入流在线微簇更新在线微簇更新在线微簇更新离线宏聚类聚类质量评估输出流状态:微簇概要数据按键值分区广播状态哈希映射
系统登录页
本文编号:3114684
【文章来源】:北方工业大学北京市
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
金字塔时间框架
第四章分布式流数据聚类服务实现36经过窗口计算后的数据即是最终的结果,同样需要将其输出,这里依然选用消息队列Kafka作为输出源,以满足进一步的数据挖掘需求或者可视化业务。至此,分布式数据流聚类算法的平台实现完毕,图4-4给出了算法在Flink中的物理执行拓扑图。图4-4分布式聚类算法物理拓扑图图4-5分布式聚类算法运行模块图在系统应用层面,如图4-5,对于流入计算平台的数据流,将按照轮询策略分发至数据源算子下游的处理算子,每个到达的数据点将在处理算子中执行在线微簇更新算法,依次迭代更新全局的微簇概要信息。考虑到将有多个节点密度地读写微簇概要信息,所以这里需要考虑如何维护在分布式环境的读写一致性问题。即微簇结构如何保存,保存在哪里,如何更新到各个子节点以及怎么保证多次读写之间不被重复和覆盖。这里选择使用Flink状态管理中的BroadcastState,建立一条专门的状态流,与正常的数据里相连接,将在状态流中将微簇结果广播至正常数据流的子节点,在子节点中对微簇结构进行迭代更新,并在到达下一算子后进行汇总更新。当一个滑动窗口处理完毕,其概要信息汇聚到下游的离线算子中输入流输入流输入流在线微簇更新在线微簇更新在线微簇更新离线宏聚类聚类质量评估输出流状态:微簇概要数据按键值分区广播状态哈希映射
系统登录页
本文编号:3114684
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3114684.html
最近更新
教材专著