基于H-struct的最大频繁项集挖掘算法研究
发布时间:2021-05-20 16:55
最大频繁项集挖掘是数据挖掘重要研究方向,它以频繁项集簇的最简集合形式反映事务数据集项间的关联关系,具有重要的理论研究价值与应用前景。然而,大多数现有最大频繁项集挖掘算法更适于稠密数据集。但实际应用中,存在着大量的事务模式差异度大、项分布零散的稀疏数据集,设计适于稀疏数据集的最大频繁项集挖掘算法具有重要意义。本文从数据存储结构、算法搜索方式和优化剪枝策略等层面对经典的最大频繁项集挖掘算法进行了讨论与分析,发现现有最大频繁项集挖掘算法一般基于模式增长,对稀疏数据集挖掘效率低。实际上,稀疏度是反映数据集疏密程度的本质特征之一,我们可以利用稀疏度对数据集分类,并围绕最大频繁项集挖掘算法对不同稀疏度的数据集进行适应性研究,取得的具体成果如下:(1)针对传统稀疏度度量不准确问题,本文提出了基于邻接矩阵的有序存储稀疏度度量方法SMMAM(Sparsity Measurement Method of Adjacency Matrix)。该方法将事务数据集压缩成有序邻接矩阵形式,从而度量其稀疏度。实验结果表明,相比于传统稀疏度度量方法,SMMAM能更准确地反映特别稠密或稀疏的事务数据集的疏密程度。(2)...
【文章来源】:四川师范大学四川省
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 研究的背景和意义
1.2 国内外研究现状
1.3 论文主要研究内容
1.4 论文的组织结构
2 最大频繁项集相关理论研究
2.1 频繁项集基础理论
2.2 最大频繁项集压缩理论
2.2.1 基于有序频繁的压缩
2.2.2 基于FP-tree的有序存储压缩
2.2.3 基于PPC-tree的有序存储压缩
2.2.4 基于邻接矩阵的有序存储压缩
2.2.5 基于集合枚举树的压缩
2.2.6 基于H-struct的压缩
2.3 最大频繁项集搜索理论
2.3.1 广度优先搜索
2.3.2 深度优先搜索
2.4 最大频繁项集剪枝理论
2.4.1 基于广度优先搜索的剪枝
2.4.2 基于深度优先搜索的剪枝
2.5 本章小结
3 数据集稀疏度度量方法研究
3.1 引言
3.2 现有稀疏度度量方法研究
3.2.1 传统稀疏度度量方法
3.2.2 基于FP-tree结点数的稀疏度度量方法
3.2.3 基于事务最大共同项数差异度的稀疏度度量方法
3.3 基于邻接矩阵的有序存储稀疏度度量方法研究
3.4 实验对比研究
3.4.1 不同特征数据集稀疏度度量结果及分析
3.4.2 不同特征数据集稀疏度下的MFI挖掘效率分析
3.5 本章小结
4 基于H-struct的最大频繁项集挖掘改进算法HMFI
4.1 引言
4.2 现有最大频繁项集挖掘算法
4.3 HMFI算法的设计
4.3.1 基于改进H-struct的深度优先搜索
4.3.2 父等价优化剪枝策略
4.3.3 HMFI时间复杂度计算及分析
4.4 实验对比研究
4.4.1 HMFI运行效率分析
4.4.2 不同特征数据集稀疏度下的HMFI挖掘效率分析
4.5 本章小结
5 总结与展望
5.1 工作总结
5.2 展望
参考文献
致谢
在校期间的科研成果
【参考文献】:
期刊论文
[1]一种基于邻接表的最大频繁项集挖掘算法[J]. 殷茗,王文杰,张煊宇,姜继娇. 电子与信息学报. 2019(08)
[2]稀疏数据频繁项集挖掘算法研究综述[J]. 肖文,胡娟. 计算机工程与科学. 2019(05)
[3]不平衡数据挖掘方法综述[J]. 向鸿鑫,杨云. 计算机工程与应用. 2019(04)
[4]基于兴趣度关联规则的海洋气象数据质控算法[J]. 李涛,张灿,张帅弛,陆正邦. 现代电子技术. 2018(22)
[5]基于DiffNodeset结构的最大频繁项集挖掘算法[J]. 尹远,张昌,文凯,郑云俊. 计算机应用. 2018(12)
[6]基于数据集稀疏度的频繁项集挖掘算法性能分析[J]. 肖文,胡娟. 计算机应用. 2018(04)
[7]基于B-list的最大频繁项集挖掘算法[J]. 张昌,文凯,郑云俊. 计算机应用研究. 2019(02)
[8]正负关联规则两级置信度阈值设置方法[J]. 陈柳,冯山. 计算机应用. 2018(05)
[9]基于Nodeset的最大频繁项集挖掘算法[J]. 林晨,顾君忠. 计算机工程. 2016(12)
[10]NB-MAFIA:基于N-List的最长频繁项集挖掘算法[J]. 沈戈晖,刘沛东,邓志鸿. 北京大学学报(自然科学版). 2016(02)
博士论文
[1]基于视觉认知的自然图像目标识别研究[D]. 李作进.重庆大学 2010
[2]最大频繁项集挖掘算法及应用研究[D]. 王卉.华中科技大学 2004
本文编号:3198105
【文章来源】:四川师范大学四川省
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 研究的背景和意义
1.2 国内外研究现状
1.3 论文主要研究内容
1.4 论文的组织结构
2 最大频繁项集相关理论研究
2.1 频繁项集基础理论
2.2 最大频繁项集压缩理论
2.2.1 基于有序频繁的压缩
2.2.2 基于FP-tree的有序存储压缩
2.2.3 基于PPC-tree的有序存储压缩
2.2.4 基于邻接矩阵的有序存储压缩
2.2.5 基于集合枚举树的压缩
2.2.6 基于H-struct的压缩
2.3 最大频繁项集搜索理论
2.3.1 广度优先搜索
2.3.2 深度优先搜索
2.4 最大频繁项集剪枝理论
2.4.1 基于广度优先搜索的剪枝
2.4.2 基于深度优先搜索的剪枝
2.5 本章小结
3 数据集稀疏度度量方法研究
3.1 引言
3.2 现有稀疏度度量方法研究
3.2.1 传统稀疏度度量方法
3.2.2 基于FP-tree结点数的稀疏度度量方法
3.2.3 基于事务最大共同项数差异度的稀疏度度量方法
3.3 基于邻接矩阵的有序存储稀疏度度量方法研究
3.4 实验对比研究
3.4.1 不同特征数据集稀疏度度量结果及分析
3.4.2 不同特征数据集稀疏度下的MFI挖掘效率分析
3.5 本章小结
4 基于H-struct的最大频繁项集挖掘改进算法HMFI
4.1 引言
4.2 现有最大频繁项集挖掘算法
4.3 HMFI算法的设计
4.3.1 基于改进H-struct的深度优先搜索
4.3.2 父等价优化剪枝策略
4.3.3 HMFI时间复杂度计算及分析
4.4 实验对比研究
4.4.1 HMFI运行效率分析
4.4.2 不同特征数据集稀疏度下的HMFI挖掘效率分析
4.5 本章小结
5 总结与展望
5.1 工作总结
5.2 展望
参考文献
致谢
在校期间的科研成果
【参考文献】:
期刊论文
[1]一种基于邻接表的最大频繁项集挖掘算法[J]. 殷茗,王文杰,张煊宇,姜继娇. 电子与信息学报. 2019(08)
[2]稀疏数据频繁项集挖掘算法研究综述[J]. 肖文,胡娟. 计算机工程与科学. 2019(05)
[3]不平衡数据挖掘方法综述[J]. 向鸿鑫,杨云. 计算机工程与应用. 2019(04)
[4]基于兴趣度关联规则的海洋气象数据质控算法[J]. 李涛,张灿,张帅弛,陆正邦. 现代电子技术. 2018(22)
[5]基于DiffNodeset结构的最大频繁项集挖掘算法[J]. 尹远,张昌,文凯,郑云俊. 计算机应用. 2018(12)
[6]基于数据集稀疏度的频繁项集挖掘算法性能分析[J]. 肖文,胡娟. 计算机应用. 2018(04)
[7]基于B-list的最大频繁项集挖掘算法[J]. 张昌,文凯,郑云俊. 计算机应用研究. 2019(02)
[8]正负关联规则两级置信度阈值设置方法[J]. 陈柳,冯山. 计算机应用. 2018(05)
[9]基于Nodeset的最大频繁项集挖掘算法[J]. 林晨,顾君忠. 计算机工程. 2016(12)
[10]NB-MAFIA:基于N-List的最长频繁项集挖掘算法[J]. 沈戈晖,刘沛东,邓志鸿. 北京大学学报(自然科学版). 2016(02)
博士论文
[1]基于视觉认知的自然图像目标识别研究[D]. 李作进.重庆大学 2010
[2]最大频繁项集挖掘算法及应用研究[D]. 王卉.华中科技大学 2004
本文编号:3198105
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3198105.html
最近更新
教材专著