基于数据流的频繁高效用集挖掘算法研究

发布时间:2023-02-21 10:31
  信息时代产生的海量数据,使得数据挖掘成为当今各行各业制定销售策略、寻找精准客户群等工作的重要手段,其中频繁项集挖掘(Frequent Itemset Mining,FIM)和高效用项集挖掘(High Utility Itemset Mining,HUIM)是数据挖掘领域中的两个重要分支。频繁项集挖掘仅关注项集在数据库中出现的次数,而高效用项集挖掘则是考虑用户偏好、重要性、利润等因素对项集“有用性”影响,因此更能满足现实中人们对事物“有用性”的要求。而随着相关研究的逐渐成熟,有学者发现单独使用频繁项集挖掘算法或高效用项集挖掘算法并不能满足某些实际场景的应用需求,因此,频繁高效用项集开始成为数据挖掘领域的研究对象。当前越来越多领域的数据在以数据流的形式产生和存在,但其具有的不同于静态数据的特性给数据挖掘工作带来了新的要求和挑战,因此针对数据流的挖掘工作也就具有了十分重要的理论意义和实践价值。本文以高效用项集挖掘研究为中心,从几个方面对研究工作进行扩展,主要包括:(1)针对FHM(Fast High-utility Mining)算法中EUCS(Estimated Utility Co-oc...

【文章页数】:61 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
1 绪论
    1.1 研究背景及意义
    1.2 论文主要研究内容
    1.3 论文组织结构
2 相关研究现状
    2.1 频繁项集挖掘算法
    2.2 高效用项集挖掘算法
        2.2.1 单一最小效用阈值高效用项集挖掘算法
        2.2.2 多最小效用阈值高效用项集挖掘算法
        2.2.3 数据流高效用项集挖掘算法
    2.3 频繁高效用项集挖掘算法
    2.4 数据流关键处理技术
        2.4.1 数据流窗口模型
        2.4.2 数据流计算系统
    2.5 本章小结
3 改进的高效用项集挖掘算法
    3.1 基本概念及相关研究
    3.2 iFHM算法
        3.2.1 搜索空间
        3.2.2 剪枝策略
        3.2.3 效用列表的构建
        3.2.4 算法介绍
    3.3 实验与结果分析
        3.3.1 实验数据集
        3.3.2 时间对比分析
        3.3.3 内存对比分析
    3.4 本章小结
4 数据流频繁高效用项集挖掘算法
    4.1 基本概念及问题定义
    4.2 iFHMS-SW算法
        4.2.1 剪枝策略
        4.2.2 窗口模型
        4.2.3 效用列表的构建
        4.2.4 算法介绍
    4.3 实验与结果分析
        4.3.1 最小支持度阈值对时间效率的影响
        4.3.2 最小效用阈值对时间效率的影响
        4.3.3 窗口尺寸对时间效率的影响
    4.4 本章小结
5 总结与展望
    5.1 工作总结
    5.2 工作展望
参考文献
攻读硕士学位期间从事的科研工作及取得的成果
致谢



本文编号:3747567

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3747567.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d1c72***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com