基于位值压缩存储的频繁模式挖掘方法及应用研究
本文关键词:基于位值压缩存储的频繁模式挖掘方法及应用研究 出处:《燕山大学》2016年博士论文 论文类型:学位论文
更多相关文章: 数据挖掘 频繁模式 位值压缩 生物序列 购买行为
【摘要】:计算机技术已经成熟地应用于现实生活中的各个领域,实现了对数据的收集、存储以及简单统计处理分析。数据挖掘技术能够进一步发现隐藏在数据中的关联规则,而频繁模式挖掘是关联规则挖掘的重要步骤。频繁模式挖掘有着广泛的应用领域,根据挖掘对象的不同,又可以得到不同的分类。本文对现有的频繁模式挖掘算法进行了详细的总结,根据事务中项发生的位置,采用位置值或者比特位的形式压缩存储数据集,基于位值压缩存储研究频繁模式中的频繁项集挖掘算法和频繁序列挖掘算法,设计了不同挖掘要求下的高效算法以及适用于生物序列和顾客购买行为分析的应用算法。本文的研究内容和创新成果如下:首先,介绍了频繁模式挖掘的相关定义和分类,并给出了不同分类下的典型算法。通过研究现状分析,对现有频繁模式挖掘算法进行总结对比,进一步学习算法各自的优缺点,发现其中存在的问题和面临的新挑战。在充分了解频繁模式挖掘算法发展过程的基础上,列举频繁模式挖掘算法的典型应用,根据频繁模式挖掘算法的理论意义和应用价值,对其发展趋势进行预测分析。其次,提出了两种不同挖掘需求下的频繁项集挖掘算法。Max Pat_HB算法通过挖掘最大频繁项集,有效缩小了频繁项集的规模,采用边产生候选项集边进行频繁性测试的策略来避免过多候选集的产生。与此同时,算法采用位向量和栈思想,用位向量值的变换代替出栈和入栈操作,使得算法达到较高的效率。FP_TopK算法用于挖掘前k名频繁项集,该算法适用于需要较少结果集的专家系统或者决策支持系统等。算法从树形结构中抽取节点集合,节点信息中包含节点在树中先序遍历和后序遍历的顺序值,进而基于节点信息进行候选集的生成和测试。在保证频繁性的前提下,得到高质量的挖掘结果。再次,设计了三种不同挖掘需求下的频繁序列模式挖掘算法。CB-PMFS算法是具有常规挖掘任务的算法,引入位置信息,可以通过一次对比双向产生候选集,很好地解决了算法运行过程中的瓶颈的问题,即产生候选集所需要的时间过多。TDD_MFS算法用于挖掘最大频繁序列模式,也可以有效地减小频繁序列模式的结果集,算法采用延迟分解的思想,自顶向下,总是对最长的序列进行分解,避免了对频繁子集的重复挖掘。FIIP-BM算法将频繁序列模式挖掘算法进一步划分为内部问题和内联问题。内部问题指在一次事务中发生,内联问题则是在制定的间隔内,发生在同一单元的不同的事务中。当间隔设置为零时,算法适用于内部问题,即常规挖掘任务;当间隔不为零时,算法适用于内部问题和内联问题,可以得到内部频繁模式和内联频繁模式。最后,结合生物序列的特性和顾客购买行为的分析需求设计了两个应用算法。生物序列挖掘算法FBSB考虑到生物序列必须连续出现的特性,引入元素的位置信息建立快速排序列表,通过位置信息值必须相邻的要求,保证了所有候选集都是真实出现的,并且可以得到全部频繁序列,满足了生物序列挖掘正确性的要求。顾客购买行为挖掘算法FP-ICA将顾客购买行为分析分为面向货物和面向顾客的,通过位向量和位值变换来实现挖掘过程,面向货物的挖掘结果可以用于商家管理自己的货架,促使顾客在一次购买行为中购买更多的相关货物;面向顾客的挖掘结果可以用于向顾客推荐其可能需要的货物,促使顾客在以后购买更多可能并没有计划要购买的货物。实验在真实数据集和人造数据集上进行,对算法的效率、可扩展性及内存开销等进行了分析,在保证高质量的挖掘结果的前提下,算法的高效性和良好的扩展性得到了验证。
[Abstract]:This paper gives a detailed summary of frequent pattern mining algorithms . The algorithm is suitable for internal and internal problems . It can get the frequent pattern of internal frequent patterns . Finally , two application algorithms are designed based on the characteristics of biological sequences and the analysis requirements of customer purchase behavior .
【学位授予单位】:燕山大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 刘君强,潘云鹤;一种基于树的频繁模式挖掘算法[J];系统工程理论与实践;2003年05期
2 李清勇 ,秦亮曦 ,施智平 ,史忠植;最大目标频繁模式挖掘算法研究[J];计算机工程与应用;2004年33期
3 申展,江宝林,唐磊,胡运发;基于互关联后继树的频繁模式挖掘研究[J];计算机工程;2004年21期
4 战立强;刘大昕;;小波滤波在时间序列频繁模式挖掘中的应用[J];哈尔滨工程大学学报;2008年01期
5 何海涛;张世玲;;基于矩阵的频繁模式挖掘及更新算法[J];计算机科学;2008年03期
6 高琳;覃桂敏;周晓峰;;图数据中频繁模式挖掘算法研究综述[J];电子学报;2008年08期
7 孟凡荣;宋春景;张磊;;一种新的多层频繁模式挖掘算法[J];微计算机信息;2009年03期
8 孟彩霞;;频繁模式挖掘的约束算法[J];智能系统学报;2009年02期
9 潘立福;朱利晶;敖富江;杜静;;基于树搜索方式的频繁模式挖掘综述[J];计算机与信息技术;2009年05期
10 白洪涛;欧阳丹彤;何丽莉;;一种基于图形处理器的频繁模式挖掘算法[J];仪器仪表学报;2009年10期
相关会议论文 前8条
1 侯俊杰;李春平;;一种基于内存索引的频繁模式挖掘算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
2 任家东;孙亚非;郭盛;;基于约束的交互式频繁模式挖掘算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 袁晴晴;楼宇波;周皓峰;汪卫;施伯乐;;基于图论的频繁模式挖掘[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 韩蒙;张炜;李建中;;RAKING:一种高效的不确定图K-极大频繁模式挖掘算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
5 曾涛;向勇;包小源;刘胤田;蒋永光;;中医古方挖掘:一种频繁药组发现与功效标注算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 杨慧;刘红岩;何军;杜小勇;;一种面向高速度数据流的频繁模式挖掘算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 王闻;谢伙生;;基于FP树和对称矩阵的最大频繁模式挖掘算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 马秀莉;刘健;童云海;唐世渭;杨冬青;;基于模式索引树的增量挖掘[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
相关博士学位论文 前10条
1 王倩;基于位值压缩存储的频繁模式挖掘方法及应用研究[D];燕山大学;2016年
2 刘勇;频繁模式挖掘相关技术研究[D];复旦大学;2007年
3 战立强;频繁模式挖掘算法研究[D];哈尔滨工程大学;2007年
4 林晓勇;频繁模式挖掘和动态维护的理论与方法研究[D];北京化工大学;2008年
5 郑晓艳;频繁模式挖掘技术研究及其在供应链管理中的应用[D];天津大学;2010年
6 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
7 张磊;基于约束的频繁模式挖掘方法以及应用研究[D];中国科学技术大学;2014年
8 阮幼林;频繁模式挖掘算法及在入侵检测中的应用研究[D];华中科技大学;2004年
9 耿汝年;加权频繁模式挖掘算法研究[D];江南大学;2008年
10 杨厚群;半结构化数据频繁模式挖掘相关技术研究[D];重庆大学;2010年
相关硕士学位论文 前10条
1 段成永;基于关联规则的频繁模式挖掘算法研究[D];大连大学;2015年
2 陈传运;云计算环境下时空轨迹频繁模式挖掘研究[D];南京师范大学;2015年
3 徐田田;基于多支持度的负频繁模式挖掘关键技术研究[D];齐鲁工业大学;2015年
4 项泰宁;带通配符和间隔约束的近似频繁模式挖掘研究[D];合肥工业大学;2014年
5 尹凤娇;基于轨迹数据的频繁项挖掘技术研究[D];大连工业大学;2015年
6 朱金华;基于频繁API使用模式挖掘的软件缺陷定位方法研究[D];华中科技大学;2014年
7 王阳;频繁模式挖掘技术及其在电信收入保障系统中的应用研究[D];湖南大学;2010年
8 张健;基于频繁模式挖掘的不良消息文本检测方法研究与实现[D];复旦大学;2012年
9 张李一;不确定性数据频繁模式挖掘算法的研究[D];复旦大学;2011年
10 屈松;图数据库频繁模式挖掘关键技术研究[D];黑龙江大学;2012年
,本文编号:1356521
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1356521.html