当前位置:主页 > 科技论文 > 软件论文 >

基于Storm的流数据聚类算法的研究与实现

发布时间:2022-01-17 14:27
  随着信息化社会的迅速发展,互联网技术的广泛应用,流数据作为目前最重要的一种数据模型已被广泛地应用于网络通信、航空工程、金融市场、电子商务等各个领域。聚类分析是一种有效的数据挖掘方法,可以依据相似性原理实现聚簇划分,达到数据分析的目的。但是,流数据是海量的、实时的,使得传统的聚类算法已无法满足对它们的处理需求,所以,流数据聚类算法的研究变得尤为重要。由于流数据呈现无限性、实时性、易失性等特点,这就提高了流数据聚类算法的要求,不仅要具有能够及时处理海量数据的能力,还要能够实现对流数据的准确聚类,提高数据分析的精准度,这其中主要包括三方面的问题:一是如何有效地处理高维流数据;二是如何准确地识别离群数据,消除它们对聚类效果的影响;三是如何及时处理历史数据,提高聚类准确度。针对这三方面的问题,本文的研究工作如下:(1)针对流数据聚类算法在处理高维流数据的过程中,存在聚类效率低、实时性差的问题,本文对主成分分析法(Principal Component Analysis,PCA)进行了改进,提出了DP-OPCA降维算法。DP-OPCA算法对数据进行了均值化处理,根据Pearson相关系数法原理改进... 

【文章来源】:齐鲁工业大学山东省

【文章页数】:89 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景与目的
    1.2 国内外研究现状
        1.2.1 数据降维研究现状
        1.2.2 流数据聚类算法研究现状
    1.3 论文的研究要点
    1.4 论文的组织结构
第2章 相关理论介绍
    2.1 数据挖掘与流数据挖掘概述
        2.1.1 数据挖掘
        2.1.2 流数据挖掘
    2.2 聚类与流数据聚类概述
        2.2.1 传统聚类
        2.2.2 流数据聚类
        2.2.3 经典流数据聚类算法
    2.3 流数据降维方法概述
        2.3.1 线性降维
        2.3.2 非线性降维
    2.4 分布式流数据处理技术
        2.4.1 分布式流数据处理架构
        2.4.2 分布式流数据处理系统
        2.4.3 分布式流数据处理平台Storm
    2.5 本章小结
第3章 基于PCA算法的分布式降维算法的研究
    3.1 PCA算法
        3.1.1 PCA算法基本原理
        3.1.2 PCA算法降维步骤
    3.2 分布式并行化降维算法DP-OPCA
        3.2.1 DP-OPCA算法降维思想
        3.2.2 DP-OPCA算法描述
        3.2.3 实验与结果分析
    3.3 本章小结
第4章 基于CluStream算法改进的流数据聚类算法的研究
    4.1 CluStream算法
        4.1.1 CluStream算法介绍
        4.1.2 金字塔时间帧模型
        4.1.3 CluStream算法存在的不足
    4.2 OD-CluStream算法
        4.2.1 OD-CluStream算法基本思想
        4.2.2 OD-CluStream算法的相关概念
        4.2.3 OD-CluStream算法描述
        4.2.4 实验与结果分析
    4.3 本章小结
第5章 基于Storm的流数据聚类算法的实现
    5.1 Storm集群的搭建
        5.1.1 实验环境
        5.1.2 Storm集群的搭建与配置
    5.2 基于Storm的 DP-OPCA算法的并行化实现
    5.3 基于Storm的 OD-CluStream算法的并行化实现
    5.4 实验数据集
    5.5 实验
        5.5.1 数据预处理
        5.5.2 实验与结果分析
    5.6 本章小结
第6章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢
在学期间主要科研成果
    一、发表学术论文
    二、其他科研成果
附件


【参考文献】:
期刊论文
[1]Hadoop环境下基于并行熵的FIUT算法挖掘[J]. 晏依,徐苏.  计算机工程与设计. 2019(03)
[2]Spark和Flink平台大数据批量处理的性能分析[J]. 马黎.  中国电子科学研究院学报. 2018(02)
[3]一种基于Pearson相关系数的电力用户负荷曲线聚类算法[J]. 王星华,许炫壕,周亚武.  黑龙江电力. 2017(05)
[4]基于Hadoop、Storm、Samza、Spark及Flink大数据处理框架的比较研究[J]. 赵娟,程国钟.  信息系统工程. 2017(06)
[5]基于MapReduce的主成分分析算法研究[J]. 易秀双,刘勇,李婕,王兴伟.  计算机科学. 2017(02)
[6]一种基于Kafka的可靠的Consumer的设计方案[J]. 王岩,王纯.  软件. 2016(01)
[7]基于Flume、Kafka、Storm、HDFS的航空维修大数据系统[J]. 徐海荣,陈闵叶,张兴媛.  上海工程技术大学学报. 2015(04)
[8]基于Kafka消息队列的电网设备准实时数据接入方法研究[J]. 王震,陈亮.  山东电力技术. 2015(06)
[9]基于主成分分析的管理学核心期刊评价研究[J]. 周建,何星.  科技情报开发与经济. 2015(03)
[10]基于NS3的分布式消息系统Kafka的仿真实现[J]. 马浩然.  软件. 2015(01)

博士论文
[1]实时流数据分析的关键技术及应用[D]. 杨定裕.上海交通大学 2015
[2]数据流聚类分析与异常检测算法[D]. 张晨.复旦大学 2009

硕士论文
[1]分布式数据流聚类算法研究与应用[D]. 万新贵.南京邮电大学 2017
[2]基于Storm的流数据聚类挖掘算法的研究[D]. 马可.南京邮电大学 2016
[3]基于弹性分布式数据集的流数据聚类分析[D]. 张媛.华东师范大学 2016
[4]流式数据的并行聚类算法研究[D]. 许振佳.曲阜师范大学 2015
[5]高维数据集上的降维算法及其应用[D]. 肖招娣.华南理工大学 2013
[6]基于Map-Reduce并行聚类算法的研究[D]. 于春深.西安电子科技大学 2012



本文编号:3594893

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3594893.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7bacf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com