当前位置:主页 > 科技论文 > 软件论文 >

一种频繁模式决策树处理可变数据流

发布时间:2017-07-01 17:01

  本文关键词:一种频繁模式决策树处理可变数据流,由笔耕文化传播整理发布。


【摘要】:数据流中可能包含大量的无用信息或者噪声,频繁模式挖掘可以去除这些无用信息,且频繁模式比单个属性包含了更多的信息.因此,挖掘频繁的、有区分力的模式,可以用于有效的分类.该文提出一个两步骤算法PatHT(Pattern-based Hoeffding Tree)生成决策树用于可变数据流分类.第一步,设计增量更新算法CCFPM(Constraintsbased and Closed Frequent Pattern Mining),用于生成闭合约束频繁模式集合CFPSet(Closed Frequent Pattern Set).CCFPM中采用滑动窗口模型和时间衰减模型处理实例,设计一种均值衰减因子设置方法得到高完整性和准确性的模式集合.第二步,增量更新方法 HTreeGrow(Hoeffding Tree Growing)生成基于CFPSet的概念漂移决策树.该方法使用概念漂移检测器监督概念改变,自动调整分类模型.针对高密度和低密度的数据流,设计了不同使用模式集合的方法.在真实和模拟数据流上的实验分析表明,与其他同类算法相比,提出的方法对稳态数据流处理时可以明显提高正确率或可以明显降低训练时间,在处理不同概念漂移特性的可变数据流时也具有很好的分类效果.
【作者单位】: 北方民族大学计算机科学与工程学院;北京交通大学计算机与信息工程学院;
【关键词】分类 可变数据流 决策树 频繁模式挖掘 Hoeffding树 数据挖掘
【基金】:国家自然科学基金(61563001) 国家民委科研基金(14BFZ008)资助
【分类号】:TP311.13
【正文快照】: 1引言随着数据流挖掘应用日趋广泛,数据流分类问题已成为一项重要且充满挑战的工作.数据流与传统的静态数据或数据库相比具有非常不同的特性,如动态、无限、高维、有序、非重复性、高速和随时间变化[1].在真实的数据流环境中,大部分数据流是可变的,即具有概念漂移[2]特征,称为

【相似文献】

中国期刊全文数据库 前10条

1 刘君强,潘云鹤;一种直接生成跨层频繁模式的算法[J];计算机应用研究;2003年01期

2 刘君强,孙晓莹,王勋,潘云鹤;挖掘最大频繁模式的新方法[J];计算机学报;2004年10期

3 阮幼林,李庆华,刘干;最大频繁模式的快速挖掘与更新算法[J];计算机工程与应用;2005年24期

4 王运鹏;胡修林;阮幼林;;一种最大频繁模式的快速挖掘算法[J];计算机应用研究;2006年10期

5 张伟;杨炳儒;钱榕;;多关系频繁模式发现研究[J];计算机科学;2007年07期

6 龚才春;贺敏;陈海强;许洪波;程学旗;;大规模语料的频繁模式快速发现算法[J];通信学报;2007年12期

7 杨传耀;张成洪;胡运发;;一种基于投影和树的闭合频繁模式算法[J];模式识别与人工智能;2008年01期

8 黄金;;基于频繁模式的蛋白质序列分类[J];东北农业大学学报;2008年05期

9 胡健;张水平;;一种无背景知识的多关系频繁模式发现算法研究[J];江西理工大学学报;2008年04期

10 徐欣;阮幼林;;最大频繁模式的挖掘算法[J];舰船电子工程;2009年03期

中国重要会议论文全文数据库 前8条

1 高晶;李建中;张兆功;;挖掘数值型数据流中的最大频繁模式[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

2 龚才春;贺敏;张华平;许洪波;程学旗;;大规模语料的频繁模式快速发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

3 乔少杰;沈志强;;PathExplorer:基于频繁模式的不确定性轨迹预测系统[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

4 孙晓;韦明;;一种基于IRST的频繁模式的心电波形分类方法研究[A];中国空间科学学会第七次学术年会会议手册及文集[C];2009年

5 王鹏;吴晓晨;王晨;汪卫;施伯乐;;CAPE——数据流上的基于频繁模式的分类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

6 冯秀芳;贾嘉;;基于频繁模式项的无线传感器网络数据融合研究[A];AECC专题学术研讨会论文集[C];2007年

7 王晨;朱永泰;汪卫;施伯乐;;高效地挖掘频繁图模式[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

8 周敏子;周皓峰;王晨;汪卫;施伯乐;;使用频繁结构提炼网络权威资源[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

中国博士学位论文全文数据库 前3条

1 万里;时间序列中的知识发现[D];北京邮电大学;2009年

2 王智慧;信息共享中隐私保护若干问题研究[D];复旦大学;2007年

3 缪裕青;关联规则挖掘及其在基因表达数据中的应用[D];中国科学技术大学;2007年

中国硕士学位论文全文数据库 前10条

1 李桃陶;面向微博社区的图数据挖掘技术研究与实现[D];国防科学技术大学;2014年

2 杨莉;分布式最大频繁模式挖掘算法的研究[D];西安科技大学;2011年

3 侯俊杰;一种基于索引的频繁模式算法研究[D];清华大学;2005年

4 臧良俊;使用长度递减支持度挖掘兴趣频繁模式和子空间[D];辽宁科技大学;2007年

5 谭越;一种基于全局频繁模式的数据挖掘算法及系统实现[D];华中科技大学;2011年

6 杨铭驰;一种基于频繁模式列表的关联规则分类算法研究与实现[D];吉林大学;2012年

7 俞洁;基于频繁模式的入侵检测算法的研究与改进[D];暨南大学;2012年

8 贾嘉;基于频繁模式的数据挖掘算法分析与改进[D];太原理工大学;2007年

9 杨雅双;关联规则的并行挖掘算法研究[D];西安科技大学;2010年

10 张铁军;关联规则挖掘的相关问题研究[D];西安科技大学;2009年


  本文关键词:一种频繁模式决策树处理可变数据流,,由笔耕文化传播整理发布。



本文编号:506684

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/506684.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户811c7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com