不确定频繁闭项集挖掘算法研究
本文关键词:不确定频繁闭项集挖掘算法研究
更多相关文章: 数据挖掘 频繁闭项集 不确定性数据 期望支持度
【摘要】:随着互联网的发展和科学技术的不断进步,各行各业都出现了海量的数据,这些数据是传统的技术所无法处理的。例如在经济、金融、电信等行业都出现了海量的数据。在这样的大数据背景下如何挖掘出有用的知识变得越来越有意义。它可以有效的解决当前数据丰富而知识匮乏的问题。挖掘频繁项集一直以来都是数据挖掘技术中的重点问题。挖掘得出的频繁项集可以更好的指导更有效的方案的制定。例如经典的啤酒和尿布的案例。然而数据挖掘的结果往往不尽如人意,由于海量的数据以及支持度较低的时候挖掘出的频繁项集的数量和关联规则的数量往往也是巨大的,显然这不是我们想要的结果,一般的解决思路就是让结果只产生更具有代表性的子集,例如挖掘最大频繁项集或者挖掘频繁闭项集,但是最大频繁项集将会丢失重要的信息,所以我们选择使用频繁闭项集来代替海量的频繁项集。近些年来,数据在传感器网络、卫星图像信息、Web应用领域、无限射频技术以及经济、物流、电信等应用中都表现出了一种不确定性。因此在不确定性数据集中如何运用数据挖掘技术变得十分迫切。然而目前经典的挖掘算法都是针对确定的数据集进行数据挖掘的。针对目前不确定性的数据集我们需要提出新的数据模型来应对数据的复杂性。本文深入学习研究频繁闭项集的挖掘算法之后提出改进策略,并且对当前广泛出现的不确定性数据模型深入学习,阅读大量文献之后提出了一种不确定频繁闭项集挖掘算法。主要研究成果如下:1、频繁项集挖掘的两种策略。深入研究学习了大量的频繁项集挖掘算法之后,频繁项集挖掘领域的经典算法主要有两类,一是Apriori算法以及以Apriori算法为基础的以层次迭代为策略来求取频繁项集的挖掘算法。该算法的主要的不足之处就是必须多次访问事务数据库和产生大量的候选项集,这无疑增加了大量的时空开销。二是FP-Growth算法以及基于FP-Tree结构的算法。该类算法采用深度优先遍历FP-Tree的策略,只需要访问一次事务数据库并且完全避免了利用候选项集的策略,时空效率得到了大大的提高。2、频繁闭项集挖掘的两种策略。用来代替频繁项集而出现的频繁闭项集的挖掘算法主要分为两类,一是类Apriori算法,二是类FP-Growth算法,在第二类算法中挖掘频繁闭项集效率最高的算法就是DCI_Closed算法,该算法提出这样的概念:生成子是保序的,并且证明得出每个闭项集都有唯一保序的生成子序列。利用这一性质来达到剪枝的目的,提高了的算法运行的时间效率。3、提出了一种改进的DCI_Closed算法,针对当前频繁闭项集高效挖掘算法DCI_Closed在挖掘过程中存在一定的不足之处,本文在DCI_Closed算法的基础之上提出了一种改进的DCI_Closed算法,在算法中引入共生项集和双生项集的概念,在构造FP-Tree结构的时候对候选的1-项集进行有效的剪枝操作,以此来提高算法的时空效率。4、提出了一种新算法U_DCI_Closed算法,不确定性数据集下挖掘频繁项集已经成为数据挖掘领域中热点问题,然而在不确定性数据集下挖掘最大频繁项集和频繁闭项集的算法并不多见。在深入了解不确定性数据领域中的数学模型以及认真研究频繁闭项集挖掘的经典算法之后,发现利用可能世界模型理论将不确定性事务数据转换为确定的事务数据,可以保留原先数据的不确定性,结合经典的闭项集挖掘算法DCI_Closed提出了一种新算法U_DCI_Closed算法,实验表明新算法能够在不确定数据集下高效的挖掘频繁闭项集。
【关键词】:数据挖掘 频繁闭项集 不确定性数据 期望支持度
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要5-7
- ABSTRACT7-9
- 第一章 绪论9-14
- 1.1 研究背景及意义9-10
- 1.2 国内外研究现状10-12
- 1.2.1 频繁项集挖掘研究现状10-11
- 1.2.2 不确定频繁项集挖掘研究现状11-12
- 1.3 主要创新点12
- 1.4 主要内容和组织结构12-14
- 第二章 频繁项集挖掘相关技术14-25
- 2.1 频繁项集挖掘基本知识14-19
- 2.1.1 频繁项集挖掘的定义14-16
- 2.1.2 频繁项集挖掘基本概念16-17
- 2.1.3 Apriori算法17-18
- 2.1.4 FP-growth算法18-19
- 2.2 频繁闭项集挖掘算法分析19-21
- 2.2.1 Aclose算法19-20
- 2.2.2 Closet算法20-21
- 2.3 不确定数据频繁项集挖掘算法21-24
- 2.3.1 不确定数据产生原因21-22
- 2.3.2 不确定数据的表现形式22-23
- 2.3.3 U-Apriori算法分析23-24
- 2.3.4 UF-growth算法分析24
- 2.4 本章小结24-25
- 第三章 DCI_Closed算法的一种改进25-33
- 3.1 DCI_Closed算法分析25-27
- 3.1.1 算法思路25-26
- 3.1.2 算法描述与分析26-27
- 3.2 DCI_Closed算法改进27-31
- 3.2.1 相关概念定义及性质27-28
- 3.2.2 改进的DCI_Closed算法28-30
- 3.2.3 改进算法描述30-31
- 3.3 实验结果及分析31-32
- 3.4 本章小结32-33
- 第四章 一种不确定频繁闭项集挖掘算法33-40
- 4.1 不确定频繁项集挖掘相关概念33-35
- 4.1.1 基本概念33
- 4.1.2 可能性世界模型理论33-35
- 4.2 不确定频繁闭项集挖掘算法U_DCI_Closed35-38
- 4.2.1 U_DCI_Closed算法思路35-36
- 4.2.2 抽样方法分析36-37
- 4.2.3 算法描述37-38
- 4.3 实验结果及分析38-39
- 4.4 本章小结39-40
- 第五章 总结与展望40-42
- 5.1 总结40-41
- 5.2 展望41-42
- 参考文献42-45
- 攻读硕士学位期间取得的科研成果45-46
- 致谢46
【相似文献】
中国期刊全文数据库 前10条
1 李力,翟东海,靳蕃;基于图的频繁闭项集挖掘算法[J];西南交通大学学报;2004年03期
2 陈凯,冯全源;一个频繁闭项集高效挖掘算法[J];计算机与数字工程;2005年09期
3 战立强;刘大昕;;基于概念格的频繁闭项集增量挖掘算法研究[J];哈尔滨工程大学学报;2007年02期
4 宋旭东;翟坤;刘晓冰;;基于图论的频繁闭项集挖掘[J];微电子学与计算机;2007年08期
5 宋威;杨炳儒;徐章艳;高静;;一种改进的频繁闭项集挖掘算法[J];计算机研究与发展;2008年02期
6 董杰;韩敏;;挖掘事务间频繁闭项集的高效率算法[J];控制与决策;2008年09期
7 吴春旭;陈家耀;刘博文;;一种挖掘频繁闭项集的改进算法[J];计算机系统应用;2008年10期
8 谭峻松;首照宇;;一种分布式环境下动态挖掘频繁闭项集算法[J];大众科技;2010年09期
9 延皓;张博;刘芳;雷振明;;基于量值的频繁闭项集层次聚类算法[J];北京邮电大学学报;2011年06期
10 章淑云;张守志;;基于不确定性数据的频繁闭项集挖掘算法[J];计算机工程;2014年03期
中国重要会议论文全文数据库 前5条
1 黄国言;王立波;任家东;;一种基于滑动窗口的数据流频繁闭项集挖掘算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 曹国栋;郭景峰;;一种基于定量更新滑动窗口频繁闭项集挖掘算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 吴春旭;陈家耀;刘博文;;一种改进CLOSET算法[A];第十届中国管理科学学术年会论文集[C];2008年
4 任家东;冯佳音;李可;;FCISW:数据流中增量挖掘频繁闭项集的新方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 莫晓静;史岚;许光宇;赵宇海;王国仁;乔建忠;;MFCC:一种高效的三维频繁闭项集挖掘算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国硕士学位论文全文数据库 前10条
1 沈盛霞;频繁闭项集挖掘算法研究[D];安徽大学;2016年
2 苗永明;不确定频繁闭项集挖掘算法研究[D];山东师范大学;2016年
3 张贺;挖掘频繁闭项集并构建其格的快速算法研究[D];重庆大学;2008年
4 余春;频繁闭项集并行挖掘算法的研究与实现[D];重庆大学;2008年
5 胡冰;频繁闭项集的挖掘算法及内容分析[D];河南大学;2009年
6 秦东霞;基于频繁闭项集的关联分类算法研究[D];重庆大学;2009年
7 赵留长;基因表达数据中高支持度频繁闭合模式的挖掘[D];哈尔滨工业大学;2010年
8 赖胜;数据流频繁闭项集挖掘算法研究[D];兰州理工大学;2011年
9 张博;宽带网络用户Web业务分析[D];北京邮电大学;2012年
10 陈凯;关联规则挖掘算法研究[D];西南交通大学;2005年
,本文编号:898481
本文链接:https://www.wllwen.com/guanlilunwen/wuliuguanlilunwen/898481.html