频繁闭项集挖掘算法研究
发布时间:2017-03-25 13:15
本文关键词:频繁闭项集挖掘算法研究,由笔耕文化传播整理发布。
【摘要】:在大数据的时代背景下,人们被淹没在信息之中,却得不到更多有用的知识。数据挖掘技术由此应运而生。近年来,关联规则挖掘研究已经成为数据挖掘中的一个热门问题,并被广泛应用于金融、市场营销、事务分析等领域。传统的关联规则挖掘算法主要任务是挖掘频繁项集,然而挖掘所有频繁项集会产生太多的冗余。由于频繁闭项集的数量级远小于所有频繁项集的数量,而且频繁闭项集不会丢失项集的信息,所以不用挖掘所有的频繁项集,用挖掘频繁闭项集来代替是一个很好的选择。近年来,不确定性数据得到了越来越广泛的重视。不确定性数据广泛出现在经济、金融、电信、物流等领域中,不确定数据挖掘已经成为数据挖掘领域中一个非常重要的研究课题,其中频繁项集挖掘是重点研究的问题之一。因此,本文主要研究了在确定性数据和不确定性数据上来挖掘频繁闭项集的问题。本文主要工作包括:(1)详细说明了在确定性数据和不确定性数据上挖掘频繁闭项集的有关概念和相关理论;(2)总结了之前已有的两类主流频繁项集挖掘框架:基于Apriori的宽度优先挖掘和基于FP树的深度优先挖掘;(3)详细介绍了确定性数据上的频繁闭项集挖掘算法,总结了相关算法的优缺点,并通过实验对比证明了各算法的性能;(4)针对最新的不确定数据上的频繁闭项集挖掘算法A-PFCIM算法进行了深入分析;(5)提出了一种新的频繁闭项集挖掘算法NA-PFCIM。该算法将项集挖掘过程中项集的出现次数看作一个概率分布函数,考虑到基于正态分布模型的方法提取的频繁项集精确度较高,而且支持大型数据库,所以我们采用了正态分布模型提取频繁项集。同时,为了减少搜索空间以及避免冗余计算,利用基于深度优先搜索的策略来获得所有的概率频繁闭项集。算法还设计了两个剪枝策略:超集修剪和子集修剪。最后,在常用的数据集上,将提出的NA-PFCIM算法和基于泊松分布的A-PFCIM算法进行比较。实验结果表明,NA-PFCIM算法能够减少所要扩展的项集,同时减少项集频繁概率的计算,其性能优于对比算法。
【关键词】:关联规则 频繁项集 频繁闭项集 深度优先策略 不确定性数据
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要3-4
- Abstract4-9
- 第一章 绪论9-13
- 1.1 研究背景及意义9
- 1.2 国内外研究现状9-11
- 1.3 本文的主要创新点11
- 1.4 本文的主要内容及组织结构11-12
- 1.5 本章小结12-13
- 第二章 相关理论13-21
- 2.1 基本概念介绍13-16
- 2.1.1 确定性数据上的频繁闭项集13
- 2.1.2 不确定性数据上的频繁闭项集13-14
- 2.1.3 举例说明14-16
- 2.2 频繁闭项集挖掘框架介绍16-20
- 2.2.1 Apriori算法16-18
- 2.2.2 FP-Growth算法18-20
- 2.3 本章小结20-21
- 第三章 确定性数据频繁闭项集挖掘算法21-32
- 3.1 Moment算法21-25
- 3.1.1 Moment算法主要内容21-23
- 3.1.2 Moment算法举例23-25
- 3.2 NewMoment算法25-27
- 3.2.1 NewMoment算法主要内容25-27
- 3.2.2 NewMoment算法举例27
- 3.3 TMoment算法27-29
- 3.3.1 TMoment算法主要内容28
- 3.3.2 TMoment算法举例28-29
- 3.4 实验结果及分析29-31
- 3.4.1 实验环境设置29
- 3.4.2 运行时间及内存使用对比29-31
- 3.5 本章小结31-32
- 第四章 不确定性数据频繁闭项集挖掘算法32-49
- 4.1 数据的不确定性32-36
- 4.1.1 不确定性数据的产生原因32
- 4.1.2 不确定性数据的表现形式32-33
- 4.1.3 不确定性数据的处理模型33-36
- 4.2 A-PFCIM算法36-39
- 4.3 NA-PFCIM算法39-43
- 4.3.1 算法主要思想39
- 4.3.2 基于正态分布模型计算项集的概率支持度39-41
- 4.3.3 基于深度优先搜索策略的挖掘树41-43
- 4.4 实验结果及分析43-48
- 4.4.1 实验环境设置43
- 4.4.2 运行时间对比43-46
- 4.4.3 近似质量评价:查准率和查全率46-47
- 4.4.4 挖掘结果压缩质量评价47-48
- 4.5 本章小结48-49
- 第五章 总结与展望49-51
- 5.1 总结49
- 5.2 展望49-51
- 参考文献51-55
- 致谢55-56
- 附录56-57
- 附录A 图索引56
- 附录B 表索引56-57
- Appendix57-58
- Appendix A Figure Index57
- Appendix B Table Index57-58
- 硕士学位期间发表的论文及科研情况58
【参考文献】
中国期刊全文数据库 前4条
1 刘慧婷;沈盛霞;赵鹏;姚晟;;不确定数据频繁闭项集挖掘算法[J];计算机应用;2015年10期
2 李学明;杨阳;秦东霞;周尚波;;基于频繁闭项集的新关联分类算法ACCF[J];电子科技大学学报;2012年01期
3 周傲英;金澈清;王国仁;李建中;;不确定性数据管理技术研究综述[J];计算机学报;2009年01期
4 刘旭;毛国君;孙岳;刘椿年;;数据流中频繁闭项集的近似挖掘算法[J];电子学报;2007年05期
中国硕士学位论文全文数据库 前3条
1 汪金苗;基于不确定数据的频繁项集挖掘算法的研究[D];山东理工大学;2012年
2 李雪;不确定数据聚类研究[D];大连理工大学;2009年
3 张贺;挖掘频繁闭项集并构建其格的快速算法研究[D];重庆大学;2008年
本文关键词:频繁闭项集挖掘算法研究,由笔耕文化传播整理发布。
,本文编号:267272
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/267272.html