当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于多效用阈值的分布式高效用序列模式挖掘

发布时间:2023-04-09 01:50
  针对序列模式的高效用模式挖掘过程中搜索空间大、计算复杂度高的问题,提出一种基于多效用阈值的分布式高效用序列模式挖掘算法。采用数组结构保存模式的效用信息,解决效用矩阵导致的内存消耗大的缺点。设计1-项集与2-项集的深度剪枝策略,深入地缩小候选模式的搜索空间,减少搜索时间成本与缓存成本。提出挖掘算法的分布式实现方案,通过并行处理进一步降低模式挖掘的时间。基于中等规模与大规模的序列数据集分别进行实验,实验结果表明,该算法有效减少了候选模式的数量,降低了挖掘的时间成本与存储成本,对于大数据集表现出较好的可扩展能力与稳定性。

【文章页数】:9 页

【文章目录】:
0 引言
1 问题模型
2 数据结构与算法设计
    2.1 会话序列的字典树(前缀树)结构
    2.2 基于数组的低内存快速挖掘策略
    2.3 索引效用列表
    2.4 生成序列的iulist
    2.5 效用上限与初步剪枝策略
    2.6 串型高效用模式挖掘算法(string high efficient pattern mining algorithm,SHEPMA)
3 分布式高效用模式挖掘算法(distributed high efficient pattern mining algorithm,SHEMA)
    3.1 分布式效用列表设计
    3.2 分布式多阈值挖掘的深度剪枝属性
    3.3 SHEMA算法
    3.4 SHEMA的分布式实现方案
    3.5 算例
4 实验结果与分析
    4.1 实验数据集
    4.2 剪枝策略的性能
    4.3 挖掘算法的挖掘时间
    4.4 挖掘算法的扩展性性能
    4.5挖掘算法消耗的内存
5 结束语



本文编号:3786844

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3786844.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户87fae***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com