基于粒度计算的动态挖掘技术研究
发布时间:2017-10-02 19:26
本文关键词:基于粒度计算的动态挖掘技术研究
更多相关文章: 动态数据挖掘 数据流 频繁模式 窗口技术 粒度计算
【摘要】:随着计算机技术、网络技术和通信技术的迅速发展,传统的动态数据挖掘方法很难适应动态数据库和实时数据库的不断更新,为了采取分而治之的思想来降低动态环境的复杂性,粒度计算方法被应用到动态数据挖掘中,其通过改变信息粒度的大小来隐藏或揭示挖掘对象的细节,从而达到发现不同层次信息的目的。在动态数据挖掘环境下构建基于粒度计算的数据挖掘模型,实现对动态数据的自适应处理具有重要的研究意义。论文针对数据流的频繁模式挖掘问题,从研究滑动窗口的频繁闭项集挖掘入手,探讨了基于粒度计算的数据流频繁模式挖掘技术。首先,构建了复合粒度,为自适应处理动态数据提供粒度计算的理论基础;论文在构建了信息窗口下的对象粒、属性粒和结构粒等复合粒度之后,提出了粒度计算和转换的方法,从而实现不同问题空间的粒度转换。然后,提出了频繁闭项集的生成方法;该方法通过混合进制映射生成模糊频繁闭项集的搜索空间,运用对象粒度计算产生模糊频繁闭项集,运用属性粒度计算发现频繁闭项集。接着,建立了嵌入式粒度计算模型;该模型能够根据不同数据特点自适应的构建不同层次的粒度,通过超级状态粒化成子状态的方法来降低挖掘环境的复杂性,即一方面,运用结构粒与对象粒的转换方法,实现用粒度计算思想来求解不同问题空间的模糊频繁闭项集;另一方面,运用对象粒向属性粒的转换方法求解问题空间的频繁闭项集。最后,论文研究了数据流上滑动窗口内的首次数据读入和数据更新技术,结合建立的嵌入式粒度计算模型,提出了基于嵌入式粒度计算的数据流频繁模式挖掘模型。该模型能够在首次读入数据阶段和数据更新阶段,运用嵌入式粒度计算来实时挖掘频繁闭项集。与典型的挖掘算法相比,实验证明该模型在不同特点的数据集上具有较好的挖掘效率,在动态挖掘过程中内存占用相对稳定,特别是在频繁项集数目较多时,内存占用比其它算法少。为了拓展这个挖掘模型,论文在时间衰减的界标窗口上,运用基于嵌入式粒度计算的数据流频繁模式挖掘模型来发现最大频繁项集。实验证明该模型也具有较好的挖掘效率和空间利用率,从而也体现了它在窗口模型上的挖掘通用性。
【关键词】:动态数据挖掘 数据流 频繁模式 窗口技术 粒度计算
【学位授予单位】:电子科技大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
- 摘要5-6
- Abstract6-13
- 第一章 绪论13-25
- 1.1 研究工作的背景与意义13-14
- 1.2 国内外研究历史与现状14-23
- 1.2.1 传统数据挖掘技术的研究现状14-18
- 1.2.1.1 挖掘算法的拓展研究14-16
- 1.2.1.2 挖掘类型的衍生研究16-17
- 1.2.1.3 挖掘模型的演化研究17-18
- 1.2.2 基于粒度计算的关联规则挖掘研究现状18-20
- 1.2.2.1 粒度计算的模型18-19
- 1.2.2.2 粒度计算在关联规则挖掘中的应用现状19-20
- 1.2.3 动态数据挖掘技术的研究现状20-23
- 1.2.3.1 现有的动态挖掘技术21-22
- 1.2.3.2 基于数据流的频繁模式挖掘现状22-23
- 1.3 本文的主要贡献与创新23-24
- 1.4 本论文的结构安排24-25
- 第二章 动态数据挖掘与粒度计算基础25-47
- 2.1 关联规则挖掘25-34
- 2.1.1 基本概念25-26
- 2.1.2 关联规则的挖掘过程26-27
- 2.1.3 频繁模式发现的经典算法27-34
- 2.1.3.1 算法Apriori框架27-29
- 2.1.3.2 算法FP-growth框架29-34
- 2.1.3.3 两种框架的优缺点分析34
- 2.2 动态数据挖掘34-42
- 2.2.1 基本概念34-35
- 2.2.2 动态数据挖掘的框架及步骤35-36
- 2.2.3 数据流动态挖掘技术36-42
- 2.2.3.1 基于窗.的动态挖掘36-38
- 2.2.3.2 基于窗.的经典数据流频繁模式挖掘算法38-42
- 2.3 粒度计算42-46
- 2.3.1 粒度计算的基本组成42-44
- 2.3.1.1 粒子43
- 2.3.1.2 粒层43
- 2.3.1.3 粒结构43-44
- 2.3.2 粒度计算模型44-45
- 2.3.2.1 模糊信息粒化理论和词计算模型44
- 2.3.2.2 基于粗糙集理论的粒度计算模型44
- 2.3.2.3 基于商空间理论的粒度计算模型44-45
- 2.3.2.4 基于集合论的粒度计算模型45
- 2.3.3 基于划分的粒度计算模型45-46
- 2.4 本章小结46-47
- 第三章 基于嵌入式粒度计算的数据流频繁模式挖掘47-109
- 3.1 问题描述47-48
- 3.2 基本概念及性质48-76
- 3.2.1 数据流的相关概念48-49
- 3.2.2 频繁项集的相关概念及性质49-50
- 3.2.3 闭项集的相关概念及性质50-56
- 3.2.3.1 Galois连接50-52
- 3.2.3.2 频繁闭项集及模糊频繁闭项集52-56
- 3.2.4 粒度计算的相关概念及性质56-76
- 3.2.4.1 对象粒的构建及粒度计算59-62
- 3.2.4.2 属性粒的构建及粒度计算62-65
- 3.2.4.3 结构粒的构建及粒度计算65-76
- 3.3 基于粒度计算的频繁模式动态挖掘技术76-88
- 3.3.1 求解空间的粒度转换方法76-81
- 3.3.1.1 同层粒度之间的转换方法76-80
- 3.3.1.2 异层粒度之间的转换方法80-81
- 3.3.2 频繁闭项集的生成方法81-83
- 3.3.2.1 频繁闭项集的产生思想81
- 3.3.2.2 频繁闭项集的实现算法81-83
- 3.3.3 嵌入式粒度计算的动态挖掘模型83-88
- 3.3.3.1 嵌入式粒度计算83-84
- 3.3.3.2 动态嵌入规则84-85
- 3.3.3.3 算法描述85-86
- 3.3.3.4 算法的正确性和完备性86-88
- 3.4 基于嵌入式粒度计算的数据流频繁模式挖掘模型88-108
- 3.4.1 建模思路88
- 3.4.2 算法描述88-95
- 3.4.2.1 首次读入操作89-91
- 3.4.2.2 更新操作91-93
- 3.4.2.3 挖掘模型的实现算法93-95
- 3.4.3 性能分析95-97
- 3.4.3.1 算法的数据结构95-96
- 3.4.3.2 首次读入数据96
- 3.4.3.3 更新操作96-97
- 3.4.3.4 算法的时空复杂度分析97
- 3.4.4 实验比较97-107
- 3.4.4.1 实验环境及测试方法98-99
- 3.4.4.2 数据流的设计及实验比较99-105
- 3.4.4.3 实验比较结果分析105-107
- 3.4.5 大数据对算法的影响107-108
- 3.5 本章小结108-109
- 第四章 模型拓展应用研究109-123
- 4.1 问题描述109-110
- 4.2 拓展模型的关键技术110-113
- 4.2.1 相关概念拓展110-111
- 4.2.1.1 信息窗的数据流参数110
- 4.2.1.2 对象粒的参数110-111
- 4.2.2 最大频繁项集的生成方法111-112
- 4.2.3 发现最大频繁项集的嵌入式粒度计算模型112-113
- 4.3 基于嵌入式粒度计算的最大频繁项集挖掘113-119
- 4.3.1 模型思路113-114
- 4.3.2 算法描述114-119
- 4.3.2.1 首次读入操作114-116
- 4.3.2.2 更新操作116-117
- 4.3.2.3 挖掘模型的实现算法117-119
- 4.4 实验比较119-122
- 4.5 本章小结122-123
- 第五章 总结与展望123-125
- 5.1 全文总结123-124
- 5.2 后续展望124-125
- 致谢125-126
- 参考文献126-135
- 攻读博士学位期间取得的成果135-136
本文编号:961422
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/961422.html