当前位置:主页 > 科技论文 > 软件论文 >

一种改进的关联规则算法研究与应用

发布时间:2021-02-23 14:42
  随着数据挖掘技术迅速而深入的发展,关联规则及其相关技术也得到越来越多的学者和研究人员的关注。关联规则挖掘能从大量的数据集中挖掘出隐含的、对决策有潜在价值的项集之间的有趣关联和相关关系,其应用的背景也从最初的购物篮分析扩展到网络入侵检测、用户消费习惯分析、关联规则分类、交通事故模式分析、软件bug挖掘等。因此,对关联规则技术的研究具有重要的实际意义,本文选择了这一主题进行了分析和研究。本文首先介绍了数据挖掘领域的研究内容、挖掘的方法和技术、当前的研究现状以及应用和发展趋势,接着对关联规则挖掘技术中的经典算法(Apriori、FP-growth等)进行了概述、分析和总结,在此基础上提出了一种基于最大频繁项集的关联规则挖掘算法MFIP-Miner算法。该算法将数据库中的事务通过频繁模式树(FP-Tree)压缩存储,并充分利用频繁模式树的性质,严格控制在挖掘过程中递归调用的终结条件,从而达到提升算法的性能的目的。其次,本文完成了实验平台的搭建,选用R语言,在Eclipse +StatET编程环境中实现了 MFIP-Miner算法,并对比MFIP-Miner算法与FP-growth算法、Mafi... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:63 页

【学位级别】:硕士

【图文】:

一种改进的关联规则算法研究与应用


图1-1常用数据挖掘技术使用状况的调查表??图1-1为当前常用的数据挖掘技术及算法的一个使用情况的调查表,该数据??

最大频繁项目集,事务数据库,路径,前缀


从频繁项目树的叶节点开始a开始,扫描事务数据库找出所有以a结??尾的频繁项目集的集合。调用函数,然后判断T包含路径的个数,??由表3-1可知,T包含多个路径,算法执行至else部分,从图3-1所示项目头表??//7^/e中选择单个项集a,运算crUm///后其结果不变。然后通过Z/raWe中项??目链找出a的同名节点链,由T找出g每一个同名节点链的前缀路径,修改路径??中节点计数,将所有找出前缀路径中节点的计数修改为项目a的计数,即得到??alj皿//的条件模式基:R/:l,c:l,d:l),(c:l,Z):l,e:l)},由条件模式基生成条件??模式树乃={(c:?2)丨。再次调用MF7P?-Max?(7b,A/F/P,,同理调用尸-Mcc??函数时判断参数7;只包含单个路径,取出该路径与a合并,得到结果该??路径中c的支持度数为2,则设置的支持数记为2。之后判断是否为??中某项目集的子集

支持度,运行时间,数据库,算法


4.2.1在Mushroom数据库上的测试分析??Mushroom数据库的TID平均长度为23,则出现较多长频繁模式(频繁模式??的长度大于10)的可能性较大。由图4-1可知MFIP-Miner算法在Mushroom数??据库上运行时间在给定的不同最小支持度(minSup)下均小于FP-growth和Mafia??算法,即可得出结论:MFIP-Mi?ner的挖掘效率高于Mafi?a算法和FP-growth算法。??同时,结合图4-2可知,长频繁模式较少(长度不大于5的频繁模式占多数)的情??况下,在支持度范围内,两种经典算法的效率低于改进算法。??90?80?70?60?50?40?30??minSup?(%)??图4-1不同支持度下三种算法在Mushroom数据库上运行时间的比较??24??

【参考文献】:
期刊论文
[1]改进的基于频繁模式树的最大频繁项集挖掘算法——FP-MFIA[J]. 杨鹏坤,彭慧,周晓锋,孙玉庆.  计算机应用. 2015(03)
[2]基于多维关联规则兴趣度的问卷调查规则提取[J]. 焦民政,曾广平,许佳男,贾斌,赵云梅.  软件. 2014(09)
[3]基于布尔向量内积的最大频繁项集算法研究[J]. 闫喜亮,孙滨.  计算机与数字工程. 2014(05)
[4]一种改进的数据流最大频繁项集挖掘算法[J]. 胡健,吴毛毛.  计算机工程与科学. 2014(05)
[5]数据挖掘中关联规则算法的研究[J]. 杨泽民.  软件. 2013(11)
[6]分布式全局最大频繁项集更新挖掘算法[J]. 杨君锐,杨莉.  华中科技大学学报(自然科学版). 2011(12)
[7]用有序FP-tree挖掘最大频繁项集[J]. 于红,王秀坤,孟军.  控制与决策. 2007(05)
[8]基于FP-Tree有效挖掘最大频繁项集[J]. 颜跃进,李舟军,陈火旺.  软件学报. 2005(02)
[9]基于FP-Tree的最大频繁项目集挖掘及更新算法[J]. 宋余庆,朱玉全,孙志挥,陈耿.  软件学报. 2003(09)
[10]多媒体数据挖掘的体系结构和方法[J]. 胡军涛,武德峰,李国辉,甘亚莉.  计算机工程. 2003(09)



本文编号:3047755

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3047755.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ccfb3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com