基于多效用阈值的分布式高效用序列模式挖掘
发布时间:2023-04-09 01:50
针对序列模式的高效用模式挖掘过程中搜索空间大、计算复杂度高的问题,提出一种基于多效用阈值的分布式高效用序列模式挖掘算法。采用数组结构保存模式的效用信息,解决效用矩阵导致的内存消耗大的缺点。设计1-项集与2-项集的深度剪枝策略,深入地缩小候选模式的搜索空间,减少搜索时间成本与缓存成本。提出挖掘算法的分布式实现方案,通过并行处理进一步降低模式挖掘的时间。基于中等规模与大规模的序列数据集分别进行实验,实验结果表明,该算法有效减少了候选模式的数量,降低了挖掘的时间成本与存储成本,对于大数据集表现出较好的可扩展能力与稳定性。
【文章页数】:9 页
【文章目录】:
0 引言
1 问题模型
2 数据结构与算法设计
2.1 会话序列的字典树(前缀树)结构
2.2 基于数组的低内存快速挖掘策略
2.3 索引效用列表
2.4 生成序列的iulist
2.5 效用上限与初步剪枝策略
2.6 串型高效用模式挖掘算法(string high efficient pattern mining algorithm,SHEPMA)
3 分布式高效用模式挖掘算法(distributed high efficient pattern mining algorithm,SHEMA)
3.1 分布式效用列表设计
3.2 分布式多阈值挖掘的深度剪枝属性
3.3 SHEMA算法
3.4 SHEMA的分布式实现方案
3.5 算例
4 实验结果与分析
4.1 实验数据集
4.2 剪枝策略的性能
4.3 挖掘算法的挖掘时间
4.4 挖掘算法的扩展性性能
4.5挖掘算法消耗的内存
5 结束语
本文编号:3786844
【文章页数】:9 页
【文章目录】:
0 引言
1 问题模型
2 数据结构与算法设计
2.1 会话序列的字典树(前缀树)结构
2.2 基于数组的低内存快速挖掘策略
2.3 索引效用列表
2.4 生成序列的iulist
2.5 效用上限与初步剪枝策略
2.6 串型高效用模式挖掘算法(string high efficient pattern mining algorithm,SHEPMA)
3 分布式高效用模式挖掘算法(distributed high efficient pattern mining algorithm,SHEMA)
3.1 分布式效用列表设计
3.2 分布式多阈值挖掘的深度剪枝属性
3.3 SHEMA算法
3.4 SHEMA的分布式实现方案
3.5 算例
4 实验结果与分析
4.1 实验数据集
4.2 剪枝策略的性能
4.3 挖掘算法的挖掘时间
4.4 挖掘算法的扩展性性能
4.5挖掘算法消耗的内存
5 结束语
本文编号:3786844
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3786844.html