当前位置:主页 > 科技论文 > 软件论文 >

大数据环境下的频繁模式挖掘算法研究

发布时间:2023-06-10 14:15
  关联规则挖掘作为数据挖掘的一个重要分支,用于发现数据当中隐藏的联系,为决策提供支持,在web挖掘、推荐系统、故障诊断等诸多领域有着广泛的应用。关联规则挖掘最核心、最耗时的步骤是频繁模式的获取。目前国内外已经开展了大量的研究来加快频繁模式的挖掘速度,但是随着大数据时代的到来,数据量越来越大,目前的频繁模式挖掘算法仍然无法满足日益增长的对挖掘算法时效性的要求。如何提升大数据环境下的频繁模式挖掘效率仍然是目前数据挖掘领域面临的一个巨大挑战。为了提升频繁模式挖掘效率,本文开展了以下研究:(1)结合频繁模式挖掘算法当中经典的Apriori算法、FP-growth算法、ECLaT算法,提出一种基于事务映射区间求交的频繁模式挖掘算法IITM(Interval Interaction and Transaction Mapping)。该算法只需扫描两次数据集,第一次扫描生成频繁1-项集,第二次扫描生成条件模式树,接着扫描条件模式树将频繁1-项集映射到区间当中,通过区间求交来进行模式增长,从而避免了递归生成条件模式树带来的开销。同时本文还通过引入Hash存储结构存储项集的区间、利用布隆过滤器对候选项集进...

【文章页数】:74 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 单机频繁模式挖掘算法
        1.2.2 并行频繁模式挖掘算法
    1.3 课题来源
    1.4 主要研究内容和论文结构
第二章 相关理论和技术
    2.1 数据挖掘流程
    2.2 关联规则相关理论
        2.2.1 事务数据
        2.2.2 关联规则
        2.2.3 频繁项集
        2.2.4 FP树
    2.3 大数据相关概念
        2.3.1 Hadoop
        2.3.2 HDFS
        2.3.3 MapReduce
        2.3.4 Spark
    2.4 布隆过滤器
第三章 基于事务映射区间求交的频繁模式挖掘算法
    3.1 IITM算法概述
        3.1.1 IITM算法的创新点
        3.1.2 IITM算法的整体流程概述
    3.2 事务映射
        3.2.1 事务映射技术的提出
        3.2.2 事务映射流程
        3.2.3 区间的存储
    3.3 候选项集生成
        3.3.1 生成候选项集的方式的选择
        3.3.2 布隆过滤器剪枝
    3.4 区间求交
    3.5 本章小结
第四章 IITM算法的并行化及优化
    4.1 IITM算法的并行化策略
    4.2 并行化IITM算法PIITM的整体流程
        4.2.1 挖掘频繁1-项集
        4.2.2 条件模式基重分区
        4.2.3 并行频繁模式挖掘
    4.3 并行化算法优化
        4.3.1 负载优化
        4.3.2 通信优化
    4.4 本章小结
第五章 实验验证及结果分析
    5.1 IITM算法的实验分析
        5.1.1 实验数据
        5.1.2 实验环境
        5.1.3 实验结果分析
    5.2 PIITM算法的实验及分析
        5.2.1 实验环境
        5.2.2 实验数据集
        5.2.3 实验结果及分析
    5.3 本章小结
结论
    总结
    展望
参考文献
攻读学位期间发表的论文
攻读学位期间参加的科研项目
致谢



本文编号:3833007

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3833007.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e4fbf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com