当前位置:主页 > 科技论文 > 软件论文 >

基于密度和倾斜时间窗口的分布式数据流聚类算法的研究

发布时间:2021-04-22 16:00
  目前,股票交易、路况实时监控和网络入侵检测等领域产生了海量的、按照时间持续到达的、实时动态变化的数据流。鉴于数据流不同于传统静态数据集,因此适合传统静态数据集挖掘的聚类算法已不能对其有效聚类。所以众多专家根据数据流的特点,研发了许多面向数据流的聚类算法。其中,基于密度的数据流聚类算法DenStream由于能够发现任意形状簇和有效处理离群点,得到广泛应用。但是,该算法既不支持分布式并行计算,又不支持指定时间窗口内实时数据流的演化分析,因此需要进一步改进,以提高算法的性能。针对DenStream算法不支持分布式并行计算的缺点,提出了分布式数据流聚类算法D-DenStream,将算法分成微簇初始化、在线微簇维护和离线聚类三个步骤执行,其中在线微簇维护包括局部点实时更新和全局点合并两个阶段,在各局部点实时并行更新微簇,以实现分布式并行计算,在全局点合并微簇,以得到全局微簇。然后为了提高D-DenStream算法的处理效率,将其部署到Storm集群环境中。最后设计对比实验验证D-DenStream算法的聚类质量和处理效率。实验结果表明,D-DenStream算法具有同DenStream算法相近的... 

【文章来源】:山东理工大学山东省

【文章页数】:71 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文的主要研究内容
    1.4 论文组织结构
第二章 数据流挖掘与聚类
    2.1 数据挖掘与数据流挖掘概述
        2.1.1 数据挖掘
        2.1.2 数据流模型
        2.1.3 数据流挖掘
        2.1.4 数据流挖掘的窗口模型
        2.1.5 数据流挖掘的实现技术
    2.2 聚类与数据流聚类概述
        2.2.1 聚类
        2.2.2 聚类算法
        2.2.3 数据流聚类算法
    2.3 基于密度的数据流聚类算法DenStream
        2.3.1 基本概念与性质
        2.3.2 DenStream算法描述
        2.3.3 DenStream算法的不足
    2.4 分布式实时计算系统
        2.4.1 分布式实时计算系统介绍
        2.4.2 各系统的对比分析
    2.5 本章小结
第三章 分布式数据流聚类算法及其基于STORM的实现
    3.1 分布式数据流聚类算法D-DenStream
        3.1.1 D-DenStream算法的主要思想
        3.1.2 D-DenStream算法描述
    3.2 基于Storm的 D-DenStream算法方案设计
        3.2.1 基于Storm的 D-DenStream算法的关键问题
        3.2.2 基于Storm的 D-DenStream算法方案设计
    3.3 实验与结果分析
        3.3.1 实验环境
        3.3.2 环境搭建
        3.3.3 实验结果分析
    3.4 本章小结
第四章 基于倾斜时间窗口的数据流聚类算法
    4.1 基于倾斜时间窗口的数据流聚类算法TTW-DenStream
        4.1.1 基本概念与性质
        4.1.2 TTW-DenStream算法的主要思想
        4.1.3 TTW-DenStream算法描述
    4.2 TTW-DenStream算法的分布式方案设计
    4.3 基于Storm的分布式TTW-DenStream算法方案设计
    4.4 实验与结果分析
        4.4.1 实验环境
        4.4.2 ElasticSearch环境搭建
        4.4.3 实验结果分析
    4.5 TTW-DenStream算法在载客热点分析中的应用
    4.6 本章小结
第五章 总结与展望
    5.1 本文小结
    5.2 未来展望
参考文献
在读期间公开发表的论文
致谢


【参考文献】:
期刊论文
[1]基于降维和支持向量机的医学诊断[J]. 张蕾,何萍,荣静.  计算机时代. 2018(11)
[2]关联规则挖掘及其在银行金融服务中的应用研究[J]. 王培静,赵乃萱,王培吉.  时代金融. 2018(29)
[3]一种改进的K-means算法[J]. 尹宝勇,吴斌,刘建生.  江西理工大学学报. 2018(05)
[4]聚类算法综述[J]. 王玉晗,罗邓三郎.  科技资讯. 2018(24)
[5]聚类算法及其在护理管理中的应用研究[J]. 降惠.  软件工程. 2018(03)
[6]改进的DBSCAN聚类和LAOF两阶段混合数据离群点检测方法[J]. 石鸿雁,马晓娟.  小型微型计算机系统. 2018(01)
[7]一种多维多粒度用户兴趣模型研究[J]. 陈辉.  小型微型计算机系统. 2017(12)
[8]基于关联规则算法的数据挖掘技术分析与研究[J]. 池云.  电脑编程技巧与维护. 2017(21)
[9]数据挖掘中的分类算法综述[J]. 魏茂胜.  网络安全技术与应用. 2017(06)
[10]聚类算法研究综述[J]. 陈新泉,周灵晶,刘耀中.  集成技术. 2017(03)

博士论文
[1]数据流聚类算法研究[D]. 万仁霞.东华大学 2010
[2]数据流挖掘若干关键技术研究[D]. 吴枫.国防科学技术大学 2009
[3]流数据的频繁项挖掘及聚类的关键技术研究[D]. 屠莉.南京航空航天大学 2009

硕士论文
[1]基于密度的数据流聚类算法研究[D]. 李省委.西安电子科技大学 2017
[2]基于出租汽车轨迹数据的城市载客热点区域挖掘发现及空间活动特征研究[D]. 赵玲.长安大学 2017
[3]分布式流处理关键技术研究与应用[D]. 熊俊杰.电子科技大学 2017
[4]基于大数据Hadoop平台的出租车载客热点区域挖掘研究[D]. 王郑委.北京交通大学 2016
[5]基于云计算的出租车轨迹数据挖掘研究[D]. 张博.西安电子科技大学 2014
[6]基于空间聚类和Weka平台的出租车载客热点区域挖掘研究[D]. 刘盼盼.吉林大学 2014
[7]基于热点载客区域的出租车应急调度方案研究[D]. 温雅静.北京交通大学 2014
[8]数据流挖掘算法研究[D]. 何相志.电子科技大学 2008



本文编号:3154059

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3154059.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7ebe3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com