当前位置:主页 > 科技论文 > 软件论文 >

基于PrefixSpan的序列模式挖掘改进算法研究

发布时间:2018-06-07 10:36

  本文选题:数据挖掘 + 序列模式 ; 参考:《四川师范大学》2017年硕士论文


【摘要】:序列模式挖掘是数据挖掘中一个重要研究领域,其序列模式挖掘算法研究具有重要研究意义。通过对经典序列模式挖掘算法的研究,本文取得如下研究成果:(1)对经典序列模式挖掘算法AprioriAll、GSP、SPADE和SPAM进行比较与分析。(2)对基于模式增长的序列模式挖掘算法Prefix Span进行研究,给出了该算法在序列模式挖掘过程中存在重复投影数据库的理论分析、算法在执行过程中的投影划分次数的上确界和下确界、最坏情形下产生重复投影数据库数的一般式。(3)在基于前缀投影思想并参考SPAM算法的数据结构基础上,采用二维表来存储频繁项在序列数据库中的位置信息;统计二维表中每列非空位置信息集的个数快速计算序列支持度,并确定其频繁性;通过对序列前缀位置的进行检查避免序列模式挖掘过程中对相同投影子表的重复挖掘。
[Abstract]:Sequential pattern mining is an important research field in data mining. Based on the research of classical sequential pattern mining algorithms, this paper has obtained the following research results: 1) compare and analyze the classical sequential pattern mining algorithms Apriori AllGSPSPADE and SPAM. (2) study the sequential pattern mining algorithm (Prefix Span) based on pattern growth. The theoretical analysis of the repeated projection database in the process of sequential pattern mining is given, and the upper and lower bounds of the number of projection partition in the execution of the algorithm are given. In the worst case, the general formula of generating the number of repeated projection databases. Based on the idea of prefix projection and referring to the data structure of SPAM algorithm, the two-dimensional table is used to store the location information of frequent items in the sequence database. The number of non-empty position information sets of each column in the two-dimensional table is calculated quickly and the frequency of the sequence is determined. By checking the position of the sequence prefix, the repeated mining of the same projection sub-table is avoided in the process of mining the sequence pattern.
【学位授予单位】:四川师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13

【参考文献】

相关期刊论文 前10条

1 杨斐;张万桢;陆垂伟;;一种无候选项的闭合序列模式挖掘算法[J];计算机应用与软件;2016年03期

2 姬浩博;王俊红;;一种改进的PrefixSpan算法及其在Web用户行为模式挖掘中的应用[J];计算机科学;2016年01期

3 李敬泉;满秀芳;;零售商B2C模式下双渠道定价策略选择研究[J];商业研究;2015年06期

4 公伟;刘培玉;贾娴;;基于改进PrefixSpan的序列模式挖掘算法[J];计算机应用;2011年09期

5 王虎;丁世飞;;序列模式挖掘研究与发展[J];计算机科学;2009年12期

6 汪林林;范军;;基于PrefixSpan的序列模式挖掘改进算法[J];计算机工程;2009年23期

7 肖仁财;薛安荣;;一种挖掘多维序列模式的有效方法[J];计算机工程与应用;2008年06期

8 夏维力;王鑫;王青松;;数据挖掘技术在企业客户关系管理中的应用研究[J];科技管理研究;2007年06期

9 张坤;朱扬勇;;无重复投影数据库扫描的序列模式挖掘算法[J];计算机研究与发展;2007年01期

10 刘立军;崔杰;梅红岩;;GSP与PrefixSpan算法的比较与分析[J];辽宁工学院学报;2006年05期

相关硕士学位论文 前3条

1 冯佳佳;基于序列模式挖掘的关键词抽取问题研究[D];合肥工业大学;2012年

2 姜海辉;并行序列模式挖掘关键问题研究[D];合肥工业大学;2009年

3 王震;数据挖掘在企业营销中的应用研究[D];重庆大学;2004年



本文编号:1990876

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1990876.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7c6be***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com