关联规则中频繁与高效用项集挖掘算法研究
本文选题:频繁项集 + 事务约简 ; 参考:《华侨大学》2017年硕士论文
【摘要】:关联规则最早是挖掘频繁项集,以支持度为度量,挖掘数据库中频繁出现的项集模式。考虑到数据库中每个项目在事务中可以出现多次,并且不同项目可以有不同的权重,频繁项集被扩展到高效用项集挖掘,高效用项集挖掘能使用用户期望的效用度量方式挖掘出更符合用户需求的结果。本文主要围绕关联规则中的频繁项集挖掘算法与高效用项集挖掘算法的时间效率提升展开,具体内容包括以下2个方面:1)基于事务约简和2-项集支持度矩阵快速剪枝的Apriori改进算法。首先自定义了保存频繁1-项集的数据结构,计算候选项集支持度时,依据这个自定义的数据结构决定扫描的事务,之后引入事务约简优化,进一步对数据库中项目和事务进行约简,提出改进的MR-Apriori算法。随后,定义一种2-项集支持度矩阵,对候选项集进行快速剪枝,提出了改进后的MP-Apriori算法。再次,结合MR-Apriori和MP-Apriori算法改进策略,提出了改进的MRP-Apriori算法。最后,在mushroom和T10I4D100K进行实验,结果表明:改进的MRApriori算法和改进的MP-Apriori算法,运行时间都比原Apriori算法减少,而结合这两种改进策略的MRP-Apriori算法运行时间最短,从而最终验证了三种算法改进的时间效率。2)基于数组伪投影和事务合并的频繁高效用项集挖掘算法。在分析了单独考虑支持度或效用值的缺陷后,本文提出一种基于数组伪投影数据结构、递归构造前缀项集的投影数据库挖掘频繁高效用项集的算法。算法将支持度和效用值这两种度量手段同时考虑,挖掘数据库中那些出现次数频繁且效用值高的项目集合。为减小算法的搜索空间,提出了局部效用剪枝和子树效用剪枝两种剪枝方案,基于算法模型和上述剪枝方案提出FUIM-P算法。随后,观察到数据库中有许多可以合并的事务,根据FUIM-P算法的特点,将这种合并被扩展到投影数据库,引入了事务(投影事务)合并技术。同时,提出了一种自定义排序规则,以在线性时间内找到满足可以快速合并的条件的事务,提出最终的FUIM-MP算法。最后在mushroom、chess和accident数据集上进行实验,结果表明:FUIM-P算法的运行时间相比对比的FHIMA-ALL算法缩短,而加入了事务(投影事务)合并技术的FUIM-MP算法则较前两者时间效率有非常大的提升;另外,实验中mushroom、chess和accident数据集中大量可合并事务(投影事务)数目也很好地证明了事务(投影事务)合并提高算法运行时间的有效性。
[Abstract]:Association rules are the earliest mining frequent itemsets, which are measured by support degree, and mining itemsets patterns that occur frequently in database. Considering that each item in the database can occur multiple times in a transaction and that different items can have different weights, frequent itemsets are extended to highly effective itemsets mining, High utility itemsets mining can use the expected utility metrics to extract the results that are more suitable to the users' needs. This paper mainly focuses on the time efficiency improvement of frequent itemset mining algorithm and high effective itemset mining algorithm in association rules. The specific contents include the following two aspects: 1) an improved Apriori algorithm based on transaction reduction and 2-item set support matrix fast pruning. Firstly, the data structure with frequent 1-itemsets is defined, and when the support degree of candidate itemsets is calculated, the scanned transactions are determined according to this self-defined data structure, and then the optimization of transaction reduction is introduced. Furthermore, the project and transaction in the database are reduced, and an improved MR-Apriori algorithm is proposed. Then, a 2-item set support matrix is defined, and the candidate item set is pruned quickly, and an improved MP-Apriori algorithm is proposed. Thirdly, an improved MRP-Apriori algorithm is proposed based on the improved strategy of MR-Apriori and MP-Apriori algorithm. Finally, the experiments on mushroom and T10I4D100K show that both the improved MRApriori algorithm and the improved MP-Apriori algorithm have less running time than the original Apriori algorithm, but the MRP-Apriori algorithm with these two improved strategies has the shortest running time. Finally, the improved time efficiency. 2) algorithm based on array pseudo projection and transaction merging for mining frequent and high effective itemsets is verified. After analyzing the defect of considering support degree or utility value separately, this paper presents an algorithm of mining frequent and high-utility item sets in projection database based on array pseudo projection data structure and recursively constructing prefix item set. The algorithm takes both support and utility measures into account to mine the set of items in the database that occur frequently and have high utility value. In order to reduce the search space of the algorithm, two kinds of pruning schemes, local utility pruning and sub-tree utility pruning, are proposed. The FUIM-P algorithm is proposed based on the algorithm model and the above pruning schemes. Then, it is observed that there are many transactions in the database that can be merged. According to the characteristics of the FUIM-P algorithm, the merging is extended to the projection database, and the technology of transaction merging is introduced. At the same time, a custom collation rule is proposed to find the transaction satisfying the condition of fast merging in linear time, and the final FUIM-MP algorithm is proposed. Finally, experiments are carried out on the mush roomless and accident datasets. The results show that the running time of the accident / FUIM-P algorithm is shorter than that of the contrast FHIMA-ALL algorithm, while the FUIM-MP algorithm which adds the transaction (projection transaction) merging technique has a great improvement on the time efficiency of the former two algorithms. In addition, the number of merge transactions (projection transactions) in mush room ess and accident datasets also proves the effectiveness of transaction merging to improve the running time of the algorithm.
【学位授予单位】:华侨大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 马安光;;棋子问题的算法分析——2003年第11期题解[J];程序员;2004年01期
2 冯舜玺;;新书推荐:《算法分析导论》[J];计算机教育;2006年05期
3 张力,慕晓冬;计算机算法分析浅谈[J];武警工程学院学报;2002年04期
4 马安光;;飞弹问题的算法分析——2003年第10期题解[J];程序员;2003年12期
5 苏运霖;;《算法分析导论》评介[J];计算机教育;2006年07期
6 朱力强;;培养学生创新思维与能力的算法分析案例[J];计算机与信息技术;2007年11期
7 汪菊琴;;几种常见特殊方阵的算法分析与实现[J];无锡职业技术学院学报;2009年05期
8 李涵;;“算法分析与设计”课程教学改革和实践[J];中国电力教育;2010年16期
9 刘宁;管涛;;浅析案例教学法在算法分析与设计课程中的应用[J];科技风;2011年07期
10 胡峰;王国胤;;“算法分析与设计”教学模式探索[J];当代教育理论与实践;2011年12期
相关会议论文 前10条
1 俞洋;田亚菲;;一种新的变步长LMS算法及其仿真[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
2 周颢;刘振华;赵保华;;构造型的D~2FA生成算法[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
3 赖桃桃;冯少荣;张东站;;一种基于划分和密度的快速聚类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
4 刘远新;邓飞其;罗艳辉;舒添慧;;ERP柔性平台下物流运输配送系统算法分析[A];第二十六届中国控制会议论文集[C];2007年
5 王树西;白硕;姜吉发;;模式合一的“减首去尾”算法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 王万青;张晓辉;;改进的A~*算法的高效实现[A];2009全国测绘科技信息交流会暨首届测绘博客征文颁奖论文集[C];2009年
7 孙焕良;邱菲;刘俊岭;朱叶丽;;IncSNN——一种基于密度的增量聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
8 韩建民;岑婷婷;于娟;;实现敏感属性l-多样性的l-MDAV算法[A];第二十七届中国控制会议论文集[C];2008年
9 张悦;尤枫;赵瑞莲;;利用蚁群算法实现基于程序结构的主变元分析[A];第五届中国测试学术会议论文集[C];2008年
10 王旭东;刘渝;邓振淼;;正弦波频率估计的修正Rife算法及其FPGA实现[A];全国第十届信号与信息处理、第四届DSP应用技术联合学术会议论文集[C];2006年
相关重要报纸文章 前1条
1 科文;VIXD算法分析Web异常[N];中国计算机报;2008年
相关博士学位论文 前10条
1 魏哲学;样本断点距离问题的算法与复杂性研究[D];山东大学;2015年
2 刘春明;基于增强学习和车辆动力学的高速公路自主驾驶研究[D];国防科学技术大学;2014年
3 张敏霞;生物地理学优化算法及其在应急交通规划中的应用研究[D];浙江工业大学;2015年
4 李红;流程挖掘算法研究[D];云南大学;2015年
5 卜晨阳;演化约束优化及演化动态优化求解算法研究[D];中国科学技术大学;2017年
6 陈拉明;基于非凸优化的稀疏重建理论与算法[D];清华大学;2016年
7 刘新旺;多核学习算法研究[D];国防科学技术大学;2013年
8 于滨;城市公交系统模型与算法研究[D];大连理工大学;2006年
9 曾国强;改进的极值优化算法及其在组合优化问题中的应用研究[D];浙江大学;2011年
10 肖永豪;蜂群算法及在图像处理中的应用研究[D];华南理工大学;2011年
相关硕士学位论文 前10条
1 黄厦;基于改进蚁群算法的柔性作业车间调度问题研究[D];昆明理工大学;2015年
2 李平;基于Hadoop的信息爬取与舆情检测算法研究[D];昆明理工大学;2015年
3 赵官宝;基于位表的关联规则挖掘算法研究[D];昆明理工大学;2015年
4 殷文华;移动容迟网络中基于社会感知的多播分发算法研究[D];内蒙古大学;2015年
5 徐翔燕;人工鱼群优化算法及其应用研究[D];西南交通大学;2015年
6 李德福;基于小世界模型的启发式寻路算法研究[D];华中师范大学;2015年
7 郑海彬;一种面向MAPREDUCE的DATASHUFFLE的优化方法[D];苏州大学;2015年
8 赵晓寒;轮换步长PSO算法及SMVSC参数优化[D];沈阳理工大学;2015年
9 安丰洋;基于无线网络的广播算法研究[D];曲阜师范大学;2015年
10 李智明;基于改进FastICA算法的混合语音盲分离[D];上海交通大学;2015年
,本文编号:1852262
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1852262.html