当前位置:主页 > 科技论文 > 软件论文 >

基于聚类假设的数据流分类算法

发布时间:2018-03-09 09:07

  本文选题:概念漂移 切入点:数据流 出处:《模式识别与人工智能》2017年01期  论文类型:期刊论文


【摘要】:获取数据流上样本的真实类别的代价很高,因此标记所有样本的方式缺乏实用性,而随机标记部分样本又会导致模型的不稳定.针对上述问题,文中提出基于聚类假设的数据流分类算法.基于通过聚类算法分到同类中的样本可能具有相同类别这一聚类假设,利用训练数据集上的聚类结果拟合样本的分布情况,在分类阶段有目的性地选取很难分类或潜在概念漂移的样本更新模型.为了训练数据集上每个类别的样本,建立各自对应的基础分类器,当数据流中样本的类别消失或重现时,只需要冻结或激活与之对应的基础分类器,而无需再重新学习之前已经掌握的知识.实验表明,文中算法能够在适应概念漂移的前提下,减少更新模型需要的样本数量,并且取得和当前数据流上的分类算法相当或更好的分类效果.
[Abstract]:The cost of obtaining the true categories of samples on a data stream is very high, so the way all samples are labeled is not practical, and random marking of parts of samples can lead to instability of the model. In this paper, a data stream classification algorithm based on clustering hypothesis is proposed. Based on the clustering assumption that the samples in the same class may have the same class, the clustering results on the training data set are used to fit the distribution of the samples. In order to train the samples of each category in the data set, a corresponding basic classifier is established, when the class of the sample in the data stream disappears or reappears. It is only necessary to freeze or activate the corresponding basic classifier without relearning the previous knowledge. Experiments show that the proposed algorithm can reduce the number of samples needed to update the model on the premise of adapting to the drift of the concept. And the classification algorithm is comparable to or better than the current classification algorithm on the data stream.
【作者单位】: 福建农林大学计算机与信息学院;
【基金】:福建省自然科学基金项目(No.2016J01280)资助~~
【分类号】:TP311.13

【参考文献】

相关期刊论文 前6条

1 Omid ABBASZADEH;Ali AMIRI;Ali Reza KHANTEYMOORI;;An ensemble method for data stream classification in the presence of concept drift[J];Frontiers of Information Technology & Electronic Engineering;2015年12期

2 郭躬德;李南;陈黎飞;;一种基于混合模型的数据流概念漂移检测算法[J];计算机研究与发展;2014年04期

3 李南;郭躬德;陈黎飞;;基于少量类标签的概念漂移检测算法[J];计算机应用;2012年08期

4 徐文华;覃征;常扬;;基于半监督学习的数据流集成分类算法[J];模式识别与人工智能;2012年02期

5 陈黎飞;郭躬德;;最近邻分类的多代表点学习算法[J];模式识别与人工智能;2011年06期

6 辛轶;郭躬德;陈黎飞;毕亚新;;IKnnM-DHecoc:一种解决概念漂移问题的方法[J];计算机研究与发展;2011年04期

【共引文献】

相关期刊论文 前10条

1 刘三民;刘涛;王忠群;修宇;刘余霞;孟超;;融合分类器可信度的数据流集成分类[J];应用科学学报;2017年02期

2 李南;;基于聚类假设的数据流分类算法[J];模式识别与人工智能;2017年01期

3 李南;;低代价的数据流分类算法[J];计算机系统应用;2016年12期

4 邓大勇;苗夺谦;黄厚宽;;信息表中概念漂移与不确定性分析[J];计算机研究与发展;2016年11期

5 王中心;孙刚;王浩;;面向不完全标记数据流的集成分类算法[J];阜阳师范学院学报(自然科学版);2016年03期

6 王伦文;冯彦卿;张铃;;动态数据挖掘的构造性学习方法综述[J];小型微型计算机系统;2016年09期

7 文益民;唐诗淇;冯超;高凯;;基于在线迁移学习的重现概念漂移数据流分类[J];计算机研究与发展;2016年08期

8 张任;;基于模糊并行约简的模糊概念漂移探测[J];微型机与应用;2016年12期

9 刘志鹏;张国毅;;一种新的雷达信号实时分选方法[J];航天电子对抗;2016年02期

10 冯超;文益民;汤凌冰;;基于主要特征抽取的重现概念漂移处理算法[J];数据采集与处理;2016年02期

【二级参考文献】

相关期刊论文 前10条

1 李南;郭躬德;;面向高速数据流的集成分类器算法[J];计算机应用;2012年03期

2 桂林;张玉红;胡学钢;;一种基于混合集成方法的数据流概念漂移检测方法[J];计算机科学;2012年01期

3 李南;郭躬德;;基于子空间集成的概念漂移数据流分类算法[J];计算机系统应用;2011年12期

4 陈黎飞;郭躬德;;最近邻分类的多代表点学习算法[J];模式识别与人工智能;2011年06期

5 张健飞;陈黎飞;郭躬德;李南;;多代表点的子空间分类算法[J];计算机科学与探索;2011年11期

6 ;Clustering feature decision trees for semi-supervised classification from high-speed data streams[J];Journal of Zhejiang University-Science C(Computers & Electronics);2011年08期

7 辛轶;郭躬德;陈黎飞;毕亚新;;IKnnM-DHecoc:一种解决概念漂移问题的方法[J];计算机研究与发展;2011年04期

8 李燕;张玉红;胡学钢;;基于C4.5和NB混合模型的数据流分类算法[J];计算机科学;2010年12期

9 郭躬德;黄杰;陈黎飞;;基于KNN模型的增量学习算法[J];模式识别与人工智能;2010年05期

10 欧阳震诤;罗建书;胡东敏;吴泉源;;一种不平衡数据流集成分类模型[J];电子学报;2010年01期

【相似文献】

相关期刊论文 前10条

1 赵月爱;陈俊杰;;重抽样方法FHNN及其在入侵检测中的应用[J];计算机工程与应用;2011年22期

2 裴杨;王勇;陶晓玲;李平红;;基于SVM的并行网络流量分类方法[J];计算机工程与设计;2013年08期

3 谭三;刘宁;;基于阈值聚类和KNN分类的入侵检测[J];郑州大学学报(理学版);2010年01期

4 王令剑;滕少华;;聚类和时间序列分析在入侵检测中的应用[J];计算机应用;2010年03期

5 丁俊松;杨和梅;陈敏雅;;入侵检测中的OCSVM方法综述[J];计算机与现代化;2007年03期

6 奚斌;周国栋;钱龙华;潘s,

本文编号:1587878


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1587878.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5c2b6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com