基于紧凑模式树和多最小支持度的频繁模式挖掘算法研究
发布时间:2021-05-16 19:22
大数据时代最典型的特征是“数据爆炸,信息匮乏”,因此对数据的分析挖掘提出了更高的要求。数据挖掘旨在把隐藏在海量且杂乱数据背后的知识和信息提取出来,并归纳出隐含在其中的内在规律,为后续决策做出科学性地指导。频繁模式挖掘作为数据挖掘过程中最基本和最关键的步骤,一直以来都是最热门的研究领域之一,许多学者都对其进行了深入研究,但仍有许多问题亟待解决与完善。本文在单支持度和多支持度频繁模式挖掘算法的基础上,对频繁模式挖掘算法进行了相应改进。具体研究内容和研究成果如下:(1)提出了一种基于改进紧凑模式树的Apriori频繁模式挖掘算法ICP-tree。首先,在Apriori算法的连接步前加入连接预处理操作,控制参与自连接的频繁项集的数量,约减生成的候选项集的数量;其次,将紧凑模式树(CP-tree)进行扩展,构造了一个新的树结构ECP-tree,新的树结构只需对数据库进行一次遍历,且能有效处理数据流问题;然后,将改进点与APFT算法结合,用于挖掘频繁模式;最后,通过对两种不同类型的数据集进行实验,将ICP-tree算法与Apriori算法、FP-growth算法、APFT算法以及文献60提出的算法...
【文章来源】:西安理工大学陕西省
【文章页数】:76 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 基于单支持度频繁模式挖掘算法国内外研究现状
1.2.2 基于多最小支持度的频繁模式挖掘算法国内外研究现状
1.3 本文研究结构
1.3.1 论文主要研究工作
1.3.2 论文组织结构
2 预备知识
2.1 频繁模式挖掘相关定义
2.2 Apriori算法
2.3 FP-growth算法
2.3.1 构造FP-tree
2.3.2 FP-tree的频繁模式挖掘
2.4 多最小支持度的相关定义
2.4.1 频繁模式的多最小支持度
2.4.2 多最小支持度定义
2.4.3 多最小支持度算法
2.5 本章小结
3 基于改进紧凑模式树的Apriori频繁模式挖掘算法
3.1 算法改进动机
3.2 算法改进思想
3.2.1 紧凑模式树介绍
3.2.2 APFT算法介绍
3.3 算法改进方案
3.3.1 优化连接步
3.3.2 扩展紧凑模式树
3.4 算法性能分析
3.4.1 实验环境与数据集
3.4.2 树构造实验
3.4.3 运行时间
3.5 本章小结
4 基于多最小支持度的频繁模式挖掘算法
4.1 算法改进动机
4.2 算法改进思想
4.2.1 构造紧凑MIS-tree
4.3 算法改进方案
4.3.1 构建最小频繁项表
4.3.2 构造IMIS-tree
4.4 从IMIS-tree中挖掘频繁模式
4.5 算法性能分析
4.5.1 实验环境与数据集
4.5.2 运行时间
4.5.3 内存消耗
4.5.4 可扩展性
4.5.5 结果分析
4.6 本章小结
5 总结与展望
5.1 主要研究结果
5.2 展望
致谢
参考文献
攻读硕士学位期间主要研究成果
【参考文献】:
期刊论文
[1]频繁项集挖掘的研究进展及主流方法[J]. 李广璞,黄妙华. 计算机科学. 2018(S2)
[2]基于矩阵相乘的Apriori改进算法[J]. 王蒙,方睿,邹书蓉. 计算机与数字工程. 2018(10)
[3]基于Spark的并行FP-Growth算法优化及实现[J]. 顾军华,武君艳,许馨匀,谢志坚,张素琪. 计算机应用. 2018(11)
[4]一种基于fp-tree的Apriori算法改进研究[J]. 倪政君,夏哲雷. 中国计量大学学报. 2018(01)
[5]基于事务映射区间求交的高效频繁模式挖掘算法[J]. 吴磊,程良伦,王涛. 计算机应用研究. 2019(04)
[6]一种基于预判筛选的频繁项集挖掘算法[J]. 李德辰,吕一帆,赵学健. 计算机技术与发展. 2018(05)
[7]基于节点表的FP-Growth算法改进[J]. 王建明,袁伟. 计算机工程与设计. 2018(01)
[8]基于二维数组和十字链表的Apriori算法[J]. 陈衡,刘玉文. 德州学院学报. 2017(02)
[9]基于Hadoop的FP-Growth关联规则并行改进算法[J]. 厍向阳,张玲. 计算机应用研究. 2018(01)
[10]基于矩阵的Apriori算法改进[J]. 宋文慧,高建瓴. 计算机技术与发展. 2016(06)
硕士论文
[1]关联规则算法的研究与改进[D]. 张盼.西安电子科技大学 2015
[2]基于压缩FP-tree的频繁项集快速挖掘算法研究[D]. 吴倩.华东理工大学 2015
本文编号:3190257
【文章来源】:西安理工大学陕西省
【文章页数】:76 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 基于单支持度频繁模式挖掘算法国内外研究现状
1.2.2 基于多最小支持度的频繁模式挖掘算法国内外研究现状
1.3 本文研究结构
1.3.1 论文主要研究工作
1.3.2 论文组织结构
2 预备知识
2.1 频繁模式挖掘相关定义
2.2 Apriori算法
2.3 FP-growth算法
2.3.1 构造FP-tree
2.3.2 FP-tree的频繁模式挖掘
2.4 多最小支持度的相关定义
2.4.1 频繁模式的多最小支持度
2.4.2 多最小支持度定义
2.4.3 多最小支持度算法
2.5 本章小结
3 基于改进紧凑模式树的Apriori频繁模式挖掘算法
3.1 算法改进动机
3.2 算法改进思想
3.2.1 紧凑模式树介绍
3.2.2 APFT算法介绍
3.3 算法改进方案
3.3.1 优化连接步
3.3.2 扩展紧凑模式树
3.4 算法性能分析
3.4.1 实验环境与数据集
3.4.2 树构造实验
3.4.3 运行时间
3.5 本章小结
4 基于多最小支持度的频繁模式挖掘算法
4.1 算法改进动机
4.2 算法改进思想
4.2.1 构造紧凑MIS-tree
4.3 算法改进方案
4.3.1 构建最小频繁项表
4.3.2 构造IMIS-tree
4.4 从IMIS-tree中挖掘频繁模式
4.5 算法性能分析
4.5.1 实验环境与数据集
4.5.2 运行时间
4.5.3 内存消耗
4.5.4 可扩展性
4.5.5 结果分析
4.6 本章小结
5 总结与展望
5.1 主要研究结果
5.2 展望
致谢
参考文献
攻读硕士学位期间主要研究成果
【参考文献】:
期刊论文
[1]频繁项集挖掘的研究进展及主流方法[J]. 李广璞,黄妙华. 计算机科学. 2018(S2)
[2]基于矩阵相乘的Apriori改进算法[J]. 王蒙,方睿,邹书蓉. 计算机与数字工程. 2018(10)
[3]基于Spark的并行FP-Growth算法优化及实现[J]. 顾军华,武君艳,许馨匀,谢志坚,张素琪. 计算机应用. 2018(11)
[4]一种基于fp-tree的Apriori算法改进研究[J]. 倪政君,夏哲雷. 中国计量大学学报. 2018(01)
[5]基于事务映射区间求交的高效频繁模式挖掘算法[J]. 吴磊,程良伦,王涛. 计算机应用研究. 2019(04)
[6]一种基于预判筛选的频繁项集挖掘算法[J]. 李德辰,吕一帆,赵学健. 计算机技术与发展. 2018(05)
[7]基于节点表的FP-Growth算法改进[J]. 王建明,袁伟. 计算机工程与设计. 2018(01)
[8]基于二维数组和十字链表的Apriori算法[J]. 陈衡,刘玉文. 德州学院学报. 2017(02)
[9]基于Hadoop的FP-Growth关联规则并行改进算法[J]. 厍向阳,张玲. 计算机应用研究. 2018(01)
[10]基于矩阵的Apriori算法改进[J]. 宋文慧,高建瓴. 计算机技术与发展. 2016(06)
硕士论文
[1]关联规则算法的研究与改进[D]. 张盼.西安电子科技大学 2015
[2]基于压缩FP-tree的频繁项集快速挖掘算法研究[D]. 吴倩.华东理工大学 2015
本文编号:3190257
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3190257.html