数据流上高效用模式挖掘算法的改进研究
发布时间:2021-02-27 05:00
随着信息技术的高速发展,数据的规模呈现指数级别增长,如何从这些数据中发现潜在的、价值高的信息是目前数据挖掘领域面临的主要挑战。伴随着数据流的出现,针对数据流的挖掘成为了数据挖掘领域中的一个研究热点,其中高效用模式挖掘是数据流的一个主要研究方向。当前数据流上的高效用模式挖掘算法总体上都是基于全局头表和效用树这两种数据结构展开挖掘工作的,为了使数据流上的高效用模式挖掘算法可以快速有效地执行并且适应更多的应用场景,本文对数据流上的高效用模式挖掘算法做了深入的研究,主要工作如下:(1)已有的数据流上的高效用模式挖掘算法建立的全局头表中包含无关冗余数据项,并且在挖掘过程中对低效用数据项做了无用的处理,增加了额外的时间开销。为了提高算法的挖掘效率,本文提出了数据流上基于全局修订头表和低效用模式预剪枝策略的高效用模式挖掘算法HUMGRT。该算法通过对全局头表的修订,删除无关冗余数据项,同时利用预剪枝策略忽略了低效用数据项,从而提高了算法的挖掘效率。在不同数据集上与多个主流算法进行对比实验,结果表明,本文提出的HUMGRT算法有更好的时间效率。(2)在长事务场景下,高效用模式挖掘算法运行效率不高,且容...
【文章来源】:武汉理工大学湖北省 211工程院校 教育部直属院校
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
不同最小效用下的运行时间对比结果
35(c)T10.14.D100K(minUT=1.3%,BS=200)(d)Retail(minUT=2.3%,BS=200)图2-15不同窗口大小下的运行时间对比结果从图2-15可以看出,对于不同数据集,本文提出的算法HUMGRT相比HUPMS、HUM-UT和IHUM-UT运行时间最少,说明时间效率得到了有效提升。与二阶段算法HUPMS相比,一阶段算法HUM-UT、IHUM-UT和HUMGRT的运行时间都大大减少。这是因为算法HUPMS在挖掘过程中采用高估效用值作为创建子树的条件,会创建更多的子树,产生更多的候选项集,而算法HUM-UT、IHUM-UT和HUMGRT在挖掘过程中采用模式的事务权重效用值作为创建子树的条件,产生的子树数量远远小于HUPMS,所以运行时间都大大减少。由一阶段算法HUM-UT、IHUM-UT和HUMGRT的运行曲线可知,HUMGRT的运行时间最少,这是因为,随着窗口大小的减小,无关冗余数据项就会越多,HUMGRT删除的冗余数据项数量就会越多;随着窗口大小的增大,对于不同的数据集其窗口中填充的总事务数量会不断增加,由定义2-5和定义2-7可知,模式的事务权重效用值的增长速度远远小于数据集总效用值的增长速度,则出现低效用数据项的概率会逐渐增大,根据低效用模式预剪枝策略,在挖掘过程中忽略的低效用数据项会越多,从而减少了算法的运行时间,所以HUMGRT的运行时间最少。在稠密度较低的数据集上,算法HUMGRT运行时间与HUISW差别不大,这是因为算法HUISW通过较小的估算效用值提升时间效率,但是仍然对低效用数据项做了无用处理,虽然算法HUMGRT的估算效用值大于算法HUISW,但是其通过低效用模式预剪枝策略忽略了低效用数据项,所以运行时间与HUISW差别不大。另外从图2-15可以看出,随着窗口大小的增大,五种算法的运行时间都在不断增加,这是因为随着窗口的增大,创建的树体积会变大,由于子挖掘是一个递
不同批大小下的运行时间对比结果
【参考文献】:
期刊论文
[1]基于DiffNodeset结构的最大频繁项集挖掘算法[J]. 尹远,张昌,文凯,郑云俊. 计算机应用. 2018(12)
[2]基于滑动窗口挖掘数据流高效用项集的有效算法[J]. 郭世明,高宏. 哈尔滨工程大学学报. 2018(04)
[3]基于时态密度特征的改进数据流聚类算法[J]. 陈羽中,郭松荣,郭昆,李国辉,林魏超. 小型微型计算机系统. 2018(01)
[4]一种改进的流数据上的高效用模式挖掘算法[J]. 谢志轩,李玉强. 小型微型计算机系统. 2017(09)
[5]一种基于距离和采样机制的数据流分类方法[J]. 胡学钢,何俊宏,李培培. 计算机应用研究. 2018(04)
[6]基于B-list的快速频繁模式挖掘算法[J]. 李校林,杜托,刘彪. 计算机应用. 2017(08)
[7]基于有向无环图的频繁模式挖掘算法[J]. 朱益立,邓珍荣,谢攀. 计算机工程与设计. 2017(05)
[8]基于元组相似度的不完备数据填补方法研究[J]. 王俊陆,王玲,王妍,宋宝燕. 计算机科学. 2017(02)
[9]概念漂移数据流挖掘算法综述[J]. 丁剑,韩萌,李娟. 计算机科学. 2016(12)
[10]一种针对日志数据流的实时可视化方法[J]. 李慧,陈红倩,杨倩玉,陈谊. 系统仿真学报. 2016(09)
博士论文
[1]高效用项集挖掘算法的关键技术研究[D]. 郭世明.哈尔滨工业大学 2017
[2]数据流模式挖掘算法及应用研究[D]. 王乐.大连理工大学 2013
硕士论文
[1]基于滑动窗口的数据流频繁项集挖掘算法优化研究[D]. 刘晶.天津工业大学 2018
[2]基于滑动窗口的数据流关联规则挖掘算法研究[D]. 李鹏飞.天津工业大学 2017
[3]不确定性数据流频繁项集挖掘算法研究[D]. 周开申.安徽大学 2014
本文编号:3053727
【文章来源】:武汉理工大学湖北省 211工程院校 教育部直属院校
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
不同最小效用下的运行时间对比结果
35(c)T10.14.D100K(minUT=1.3%,BS=200)(d)Retail(minUT=2.3%,BS=200)图2-15不同窗口大小下的运行时间对比结果从图2-15可以看出,对于不同数据集,本文提出的算法HUMGRT相比HUPMS、HUM-UT和IHUM-UT运行时间最少,说明时间效率得到了有效提升。与二阶段算法HUPMS相比,一阶段算法HUM-UT、IHUM-UT和HUMGRT的运行时间都大大减少。这是因为算法HUPMS在挖掘过程中采用高估效用值作为创建子树的条件,会创建更多的子树,产生更多的候选项集,而算法HUM-UT、IHUM-UT和HUMGRT在挖掘过程中采用模式的事务权重效用值作为创建子树的条件,产生的子树数量远远小于HUPMS,所以运行时间都大大减少。由一阶段算法HUM-UT、IHUM-UT和HUMGRT的运行曲线可知,HUMGRT的运行时间最少,这是因为,随着窗口大小的减小,无关冗余数据项就会越多,HUMGRT删除的冗余数据项数量就会越多;随着窗口大小的增大,对于不同的数据集其窗口中填充的总事务数量会不断增加,由定义2-5和定义2-7可知,模式的事务权重效用值的增长速度远远小于数据集总效用值的增长速度,则出现低效用数据项的概率会逐渐增大,根据低效用模式预剪枝策略,在挖掘过程中忽略的低效用数据项会越多,从而减少了算法的运行时间,所以HUMGRT的运行时间最少。在稠密度较低的数据集上,算法HUMGRT运行时间与HUISW差别不大,这是因为算法HUISW通过较小的估算效用值提升时间效率,但是仍然对低效用数据项做了无用处理,虽然算法HUMGRT的估算效用值大于算法HUISW,但是其通过低效用模式预剪枝策略忽略了低效用数据项,所以运行时间与HUISW差别不大。另外从图2-15可以看出,随着窗口大小的增大,五种算法的运行时间都在不断增加,这是因为随着窗口的增大,创建的树体积会变大,由于子挖掘是一个递
不同批大小下的运行时间对比结果
【参考文献】:
期刊论文
[1]基于DiffNodeset结构的最大频繁项集挖掘算法[J]. 尹远,张昌,文凯,郑云俊. 计算机应用. 2018(12)
[2]基于滑动窗口挖掘数据流高效用项集的有效算法[J]. 郭世明,高宏. 哈尔滨工程大学学报. 2018(04)
[3]基于时态密度特征的改进数据流聚类算法[J]. 陈羽中,郭松荣,郭昆,李国辉,林魏超. 小型微型计算机系统. 2018(01)
[4]一种改进的流数据上的高效用模式挖掘算法[J]. 谢志轩,李玉强. 小型微型计算机系统. 2017(09)
[5]一种基于距离和采样机制的数据流分类方法[J]. 胡学钢,何俊宏,李培培. 计算机应用研究. 2018(04)
[6]基于B-list的快速频繁模式挖掘算法[J]. 李校林,杜托,刘彪. 计算机应用. 2017(08)
[7]基于有向无环图的频繁模式挖掘算法[J]. 朱益立,邓珍荣,谢攀. 计算机工程与设计. 2017(05)
[8]基于元组相似度的不完备数据填补方法研究[J]. 王俊陆,王玲,王妍,宋宝燕. 计算机科学. 2017(02)
[9]概念漂移数据流挖掘算法综述[J]. 丁剑,韩萌,李娟. 计算机科学. 2016(12)
[10]一种针对日志数据流的实时可视化方法[J]. 李慧,陈红倩,杨倩玉,陈谊. 系统仿真学报. 2016(09)
博士论文
[1]高效用项集挖掘算法的关键技术研究[D]. 郭世明.哈尔滨工业大学 2017
[2]数据流模式挖掘算法及应用研究[D]. 王乐.大连理工大学 2013
硕士论文
[1]基于滑动窗口的数据流频繁项集挖掘算法优化研究[D]. 刘晶.天津工业大学 2018
[2]基于滑动窗口的数据流关联规则挖掘算法研究[D]. 李鹏飞.天津工业大学 2017
[3]不确定性数据流频繁项集挖掘算法研究[D]. 周开申.安徽大学 2014
本文编号:3053727
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3053727.html