基于数据流的频繁项集挖掘算法研究

发布时间:2022-08-08 15:19
  随着5G、人工智能、云计算等信息技术的高速发展,与之相匹配的数据流挖掘算法已无法满足当前需求,在数据流中进行数据挖掘越来越受到研究者的关注。但是数据流中的数据挖掘存在诸多限制,其内存有限,对挖掘算法的要求更高,使得数据流中的数据挖掘存在更大的挑战。关联规则挖掘是数据挖掘的一个重要组成部分,它挖掘不同事务、不同属性之间的潜在联系。本文基于数据流重点进行关联规则中的频繁项集和最大频繁项集挖掘,在挖掘时采用高效的数据压缩结构压缩数据,采用超集检测策略降低数据量,采用高效方法计算支持度计数,从多方位、多角度对数据流频繁项集挖掘进行了深入研究与分析。主要内容如下:论文首先研究改进经典数据流频繁项集挖掘FIUT-Stream算法,提出了一种高效的数据流频繁项集挖掘算法。改进算法采用常用滑动窗口处理数据流,并采用高效位表进行数据压缩,在支持度计算时直接操作位表,通过求与运算计算支持度,实现了支持度的快速计算。该算法挖掘频繁项集,只需对项集所有项在位表中所在的列求与,即可得到该项集支持度计数,从而进行频繁项集的判断,同时在频繁项集挖掘过程中进行超集检测策略降低挖掘数据量。实验结果表明,该改进算法在保证... 

【文章页数】:73 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
注释表
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文主要工作
    1.4 本文组织结构
    1.5 本章小结
第2章 相关理论基础
    2.1 数据挖掘
        2.1.1 数据挖掘介绍
        2.1.2 数据挖掘任务
    2.2 数据流的概念及应用
        2.2.1 数据流的定义与特性
        2.2.2 数据流的应用
    2.3 数据流挖掘的窗口模式
        2.3.1 界标窗口模型
        2.3.2 衰减窗口模型
        2.3.3 滑动窗口模型
    2.4 数据流频繁项集挖掘
        2.4.1 关联规则介绍
        2.4.2 数据流频繁项集挖掘的主要问题
        2.4.3 数据流频繁项集挖掘内容
        2.4.4 数据流频繁项集挖掘经典算法
    2.5 本章小结
第3章 基于BTA算法的数据流频繁项集挖掘算法
    3.1 FIUT-Stream算法分析
        3.1.1 相关定义与性质
        3.1.2 频繁项集挖掘
        3.1.3 算法优缺点分析
    3.2 基于BTA的改进FIUT-Stream算法
        3.2.1 算法改进思路
        3.2.2 改进算法描述
    3.3 实验结果分析
        3.3.1 实验环境
        3.3.2 运行时间
        3.3.3 内存占用
        3.3.4 可伸缩性
    3.4 本章小结
第4章 数据流中的最大频繁项集挖掘算法
    4.1 改进算法分析
        4.1.1 相关定义及性质
        4.1.2 算法改进思路
        4.1.3 改进算法详细描述
    4.2 改进数据流最大频繁项集挖掘算法
        4.2.1 窗口初始阶段
        4.2.2 窗口滑动阶段
        4.2.3 最大频繁项集挖掘
    4.3 实验结果与分析
        4.3.1 实验环境
        4.3.2 运行时间
        4.3.3 内存占用
        4.3.4 可伸缩性
    4.4 本章小结
第5章 总结与展望
    5.1 工作总结
    5.2 工作展望
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果



本文编号:3671749

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3671749.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a021a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com