周期性一般间隙约束的序列模式挖掘
本文选题:序列模式挖掘 + 一般间隙 ; 参考:《计算机学报》2017年06期
【摘要】:序列模式挖掘是从给定序列中发现出现频率高的模式的一种方法,目前已在诸多领域被广泛应用.假定子模式p_i和p_j(ij)可以分别匹配事件A和事件B,传统的序列模式挖掘方法能够对事件B在事件A之后的序列进行检测,而不能对事件B发生在事件A之前的序列进行识别.为了解决此问题,文中提出了周期性一般间隙约束的序列模式挖掘问题,该问题具有如下5个特点:间隙约束的最小值可为负值的一般间隙约束;每个间隙约束都相同的周期性模式;在支持数统计方面无特殊约束,即允许序列中事件多次使用;该挖掘问题满足Apriori性质;挖掘支持率大于给定的频繁度阈值的频繁模式.为了进行有效地挖掘,采用深度优先的方式建立模式树.文中采用模式匹配技术,在一遍扫描序列数据库的情况下,建立其所有超模式的不完整网树森林(不完整网树是网树的最后一层结点,可以存储在一个数组中,可以有效地表示一个模式在一个序列中的支持数),并对这些超模式的支持率进行有效地计算,进而挖掘出所有频繁模式,有效地提高了序列模式挖掘速度.实验结果验证了文中算法的可行性和有效性.
[Abstract]:Sequential pattern mining is a method to discover patterns with high frequency from a given sequence, which has been widely used in many fields. It is assumed that the subpatterns pi and pstack _ jj _ ijj) can match event A and event B, respectively. The traditional sequential pattern mining method can detect the sequence of event B after event A, but can not identify the sequence of event B that occurred before event A. In order to solve this problem, a sequential pattern mining problem with periodic general gap constraints is proposed. The problem has the following five characteristics: the minimum value of gap constraints can be negative general gap constraints; Every gap constraint has the same periodic pattern; there are no special constraints in supporting statistics, that is, the events in the sequence are allowed to be used multiple times; the mining problem satisfies the Apriori property; and the mining support rate is greater than the given frequency threshold. In order to excavate effectively, the pattern tree is built in depth first. In this paper, the pattern matching technique is used to set up all the incomplete net tree forests of its superpattern (incomplete net tree is the last layer node of the net tree, which can be stored in an array) under the condition of scanning the sequence database once. It can effectively represent the support number of a pattern in a sequence, calculate the support rate of these superpatterns effectively, and then mine all frequent patterns, thus effectively improving the speed of sequential pattern mining. Experimental results show that the proposed algorithm is feasible and effective.
【作者单位】: 河北工业大学计算机科学与软件学院;大连理工大学软件学院;合肥工业大学计算机科学与信息工程学院;佛蒙特大学计算机系;
【基金】:国家自然科学基金(61229301) 教育部创新团队项目(IRT13059) 河北省自然科学基金(F2013202138) 河北省教育厅重点项目(ZD2014009);河北省教育厅青年基金(QN2014192)资助~~
【分类号】:TP311.13
【参考文献】
相关期刊论文 前3条
1 吴信东;谢飞;黄咏明;胡学钢;高隽;;带通配符和One-Off条件的序列模式挖掘[J];软件学报;2013年08期
2 武优西;刘亚伟;郭磊;吴信东;;子网树求解一般间隙和长度约束严格模式匹配[J];软件学报;2013年05期
3 王海平;胡学钢;谢飞;郭丹;吴信东;;模式特征对带有通配符和长度约束的模式匹配问题的影响[J];模式识别与人工智能;2012年06期
【共引文献】
相关期刊论文 前10条
1 杨静欣;毛国君;;一种基于位置信息的高效DNA序列挖掘算法[J];计算机应用与软件;2017年06期
2 谢飞;强继朋;;满足非重叠条件的带有通配符序列模式挖掘[J];小型微型计算机系统;2017年05期
3 武优西;周坤;刘靖宇;江贺;吴信东;;周期性一般间隙约束的序列模式挖掘[J];计算机学报;2017年06期
4 苗雪连;;间隙约束序列模式挖掘的对比研究[J];网络安全技术与应用;2017年02期
5 袁二毛;郭丹;胡学钢;吴信东;;基于打分矩阵的生物序列频繁模式挖掘[J];模式识别与人工智能;2016年10期
6 胡学钢;王海平;郭丹;李培培;;图算法求解带有限长空位和one-off约束的模式匹配问题[J];模式识别与人工智能;2016年05期
7 汪浩;王海平;吴信东;;带有通配符和长度约束的模式匹配问题求解模型[J];计算机科学;2016年04期
8 崔妍;包志强;;关联规则挖掘综述[J];计算机应用研究;2016年02期
9 宋海涛;韦大伟;汤光明;孙怡峰;;基于模式挖掘的用户行为异常检测算法[J];小型微型计算机系统;2016年02期
10 史巧硕;周慧霞;李杨;李娟;;回归方法估算最长频繁模式长度[J];河北工业大学学报;2015年05期
【二级参考文献】
相关期刊论文 前2条
1 武优西;吴信东;江贺;闵帆;;一种求解MPMGOOC问题的启发式算法[J];计算机学报;2011年08期
2 邹翔,张巍,刘洋,蔡庆生;分布式序列模式发现算法的研究[J];软件学报;2005年07期
【相似文献】
相关期刊论文 前10条
1 张长海;胡孔法;陈凌;;序列模式挖掘算法综述[J];扬州大学学报(自然科学版);2007年01期
2 肖哲;任胜兵;;序列模式挖掘研究进展[J];科技信息(科学教研);2007年36期
3 陈卓;杨炳儒;宋威;宋泽锋;;序列模式挖掘综述[J];计算机应用研究;2008年07期
4 王虎;丁世飞;;序列模式挖掘研究与发展[J];计算机科学;2009年12期
5 陈晓;;一种模糊序列模式挖掘的有效方法[J];现代计算机(专业版);2010年13期
6 李乃乾;姚新会;田东平;;多时间粒度序列模式挖掘[J];小型微型计算机系统;2011年01期
7 吴孔玲;缪裕青;苏杰;张晓华;;序列模式挖掘研究[J];计算机系统应用;2012年06期
8 聂成林,王浩,胡学钢;基于概念格的序列模式挖掘[J];计算机工程;2003年20期
9 龚惠群,黄超,彭江平;具有双时间维约束的股票序列模式挖掘[J];计算机工程;2003年20期
10 许兆新,郝燕玲;约束在序列模式挖掘中的应用研究[J];计算机工程与应用;2004年05期
相关会议论文 前10条
1 吕静;陈未如;刘俊;Osei Adjei;;并发分支模式挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 端义锋;胡谷雨;丁力;;序列模式挖掘在网络告警分析中的应用[A];2004年全国通信软件学术会议论文集[C];2004年
3 朱辉生;李存华;;序列模式挖掘的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 李润恒;贾焰;金鑫;;一种面向网络安全的序列模式挖掘方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 李晟;姜青山;郭顺;王备战;;一种优化的蛋白质序列模式挖掘方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 姚伟力;王锡禄;宋俊德;;基于序列模式挖掘的告警相关性分析算法[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
8 任家东;解玉洁;何海涛;张爱国;;基于改进前缀树PStree的最大序列模式挖掘[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
9 牛兴雯;杨冬青;唐世渭;王腾蛟;;OSAF-tree——可迭代的移动序列模式挖掘及增量更新方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 张锐;熊峗;陈越;朱扬勇;;MS-BioSM:一个基于多支持度生物序列模式挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
相关博士学位论文 前8条
1 张劲松;基于约束的序列模式挖掘及其应用研究[D];上海交通大学;2015年
2 金阳;基于概念格模型的序列模式挖掘算法研究[D];吉林大学;2007年
3 谢飞;带有通配符的序列模式挖掘研究[D];合肥工业大学;2011年
4 熊峗;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
5 杨钤雯;序列模式挖掘方法及Web使用挖掘研究[D];天津大学;2010年
6 陆介平;描述性规则挖掘若干关键技术研究[D];东南大学;2006年
7 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
8 徐前方;基于数据挖掘的网络故障告警相关性研究[D];北京邮电大学;2007年
相关硕士学位论文 前10条
1 张长海;分布式序列模式挖掘算法研究[D];扬州大学;2008年
2 陈晓;基于模糊集的序列模式挖掘研究[D];天津大学;2007年
3 俞单庆;序列模式挖掘及其在入侵检测中的应用研究[D];南京师范大学;2008年
4 杨名时;加权负序列模式挖掘算法研究[D];齐鲁工业大学;2015年
5 周慧霞;回归方法估算最长频繁模式长度研究[D];河北工业大学;2015年
6 冯建;基于命题逻辑的频繁序列模式挖掘算法的研究[D];浙江工业大学;2014年
7 廖清科;面向时间序列相似性的序列模式挖掘及应用[D];重庆交通大学;2015年
8 周坤;一般周期间隙约束的序列模式挖掘[D];河北工业大学;2015年
9 向剑平;Web日志中序列模式挖掘算法的研究[D];重庆大学;2015年
10 董鑫;时序数据序列模式挖掘[D];南京航空航天大学;2015年
,本文编号:1777391
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1777391.html