基于Storm的分布式流数据关联规则挖掘
发布时间:2021-09-18 06:41
流数据广泛存在于传感器、网络通信和互联网等领域中,是一组无序、实时到达、无界且连续的数据项。流数据具有实时性、突发性、无限性、无序性以及易失性的特点。流数据的特点决定了无法在数据库中完全存储所有的数据并且需要实时挖掘。因此,有别于传统的静态数据挖掘算法,流数据挖掘算法需要针对流数据的特点做出改进。关联规则挖掘是数据挖掘算法的一种,该算法的目的是挖掘两个项集之间的内在联系。现有的流数据关联规则挖掘算法FP-Stream运行在单个计算机中,性能受限于计算机的配置。如今,流数据产生的速度日益增长,FP-Stream算法的性能已经捉襟见肘。针对这一问题,本文设计了分布式流数据关联规则挖掘算法FP-Storm。另外,本文基于Storm框架设计了分布式流数据关联规则挖掘框架。最后,为了验证所提算法和框架的可用性,设计实现了基于流数据关联规则挖掘的股票推荐原型系统。本文主要做出了如下工作:(1)为了解决现有流数据关联规则算法性能低下的问题,设计了分布式流数据关联规则算法FP-Storm。该算法使用滑动窗口选取并缓存数据,将流数据转换为批次数据进行处理。然后使用划分投影的方法,将批次数据划分到不同的计...
【文章来源】:江苏大学江苏省
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
纳伪和拒真
图 3.11 数据集部分数据截图(1) 精确性实验分析以对历史数据的全量挖掘结果为标准,流数据关联规则挖掘算法存在着拒真和纳伪的情况。流数据关联规则挖掘算法的精确性取决于其结果与全量挖掘结果的差异程度。实验使用交通事故数据集,使用经典的 FP-Growth 算法作为全量挖掘的标准结果。实验中分别测试了最小支持度为 0.7,0.8,0.9,对应潜在最小支持度为 0.5,0.6,0.7,0.8的情况下,频繁项集挖掘结果的数量差异,实验结果如表 3.7 所示。表 3.7 算法精确性实验结果最小支持度 潜在最小支持度 全量挖掘 流数据挖掘0.7 0.5 32767 325100.7 0.6 32767 323160.8 0.6 511 5070.8 0.7 511 5040.9 0.7 31 31
图 3.12 最小支持度对运行时间的影响图 3.13 每秒发送数据量对运行时间的影响结果显示随着最小支持度的变小,FP-Storm 算法和 FP-Stream
【参考文献】:
期刊论文
[1]基于关联规则的舰船故障数据定位挖掘算法[J]. 孙继旋. 舰船科学技术. 2017(24)
[2]改进的Apriori算法在股票联动中的应用[J]. 赵明,罗阳星,蒋灿. 信息技术. 2017(07)
[3]基于MapReduce的改进的Apriori算法及其应用研究[J]. 赵月,任永功,刘洋. 计算机科学. 2017(06)
[4]基于前缀项集的Apriori算法改进[J]. 于守健,周羿阳. 计算机应用与软件. 2017(02)
[5]基于关联规则的滥用入侵检测系统的研究与实现[J]. 谢修娟,莫凌飞,朱林. 现代电子技术. 2017(02)
[6]基于Storm的实时报警服务的设计与实现[J]. 马庆祥,刘钊远. 信息技术. 2016(12)
[7]基于Storm的实时用户日志管理系统[J]. 陈建峡,张月,曾金怀,程鹏,王鹰适,倪一鸣. 湖北工业大学学报. 2016(05)
[8]基于Spark的PFP-Growth并行算法优化实现[J]. 方向,张功萱. 现代电子技术. 2016(08)
[9]关联规则在股票分析及预测中的应用[J]. 戴钟仪. 新经济. 2016(05)
[10]增量关联规则挖掘研究综述[J]. 张步忠,江克勤,张玉州. 小型微型计算机系统. 2016(01)
硕士论文
[1]基于Storm云平台的电网设备报警数据快速处理的研究[D]. 王铭坤.华北电力大学 2015
本文编号:3399670
【文章来源】:江苏大学江苏省
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
纳伪和拒真
图 3.11 数据集部分数据截图(1) 精确性实验分析以对历史数据的全量挖掘结果为标准,流数据关联规则挖掘算法存在着拒真和纳伪的情况。流数据关联规则挖掘算法的精确性取决于其结果与全量挖掘结果的差异程度。实验使用交通事故数据集,使用经典的 FP-Growth 算法作为全量挖掘的标准结果。实验中分别测试了最小支持度为 0.7,0.8,0.9,对应潜在最小支持度为 0.5,0.6,0.7,0.8的情况下,频繁项集挖掘结果的数量差异,实验结果如表 3.7 所示。表 3.7 算法精确性实验结果最小支持度 潜在最小支持度 全量挖掘 流数据挖掘0.7 0.5 32767 325100.7 0.6 32767 323160.8 0.6 511 5070.8 0.7 511 5040.9 0.7 31 31
图 3.12 最小支持度对运行时间的影响图 3.13 每秒发送数据量对运行时间的影响结果显示随着最小支持度的变小,FP-Storm 算法和 FP-Stream
【参考文献】:
期刊论文
[1]基于关联规则的舰船故障数据定位挖掘算法[J]. 孙继旋. 舰船科学技术. 2017(24)
[2]改进的Apriori算法在股票联动中的应用[J]. 赵明,罗阳星,蒋灿. 信息技术. 2017(07)
[3]基于MapReduce的改进的Apriori算法及其应用研究[J]. 赵月,任永功,刘洋. 计算机科学. 2017(06)
[4]基于前缀项集的Apriori算法改进[J]. 于守健,周羿阳. 计算机应用与软件. 2017(02)
[5]基于关联规则的滥用入侵检测系统的研究与实现[J]. 谢修娟,莫凌飞,朱林. 现代电子技术. 2017(02)
[6]基于Storm的实时报警服务的设计与实现[J]. 马庆祥,刘钊远. 信息技术. 2016(12)
[7]基于Storm的实时用户日志管理系统[J]. 陈建峡,张月,曾金怀,程鹏,王鹰适,倪一鸣. 湖北工业大学学报. 2016(05)
[8]基于Spark的PFP-Growth并行算法优化实现[J]. 方向,张功萱. 现代电子技术. 2016(08)
[9]关联规则在股票分析及预测中的应用[J]. 戴钟仪. 新经济. 2016(05)
[10]增量关联规则挖掘研究综述[J]. 张步忠,江克勤,张玉州. 小型微型计算机系统. 2016(01)
硕士论文
[1]基于Storm云平台的电网设备报警数据快速处理的研究[D]. 王铭坤.华北电力大学 2015
本文编号:3399670
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3399670.html