基于概率和代表点的数据流动态聚类算法
本文关键词: 数据流 能量函数 概率 优化算法 动态聚类 出处:《计算机研究与发展》2016年05期 论文类型:期刊论文
【摘要】:为了解决数据流动态聚类问题,提出了一种概率化的基于代表点聚类算法.首先,基于概率框架给出了AP(affinity propagation)聚类算法和EEM(enhancedα-expansion move)聚类算法的联合目标函数,提出了概率化的基于代表点聚类算法;其次,根据样本与其代表点之间的概率,提出了基于概率的漂移动态α-expansion数据流聚类算法.该算法使得新数据的代表点尽可能贴近原始数据的代表点,从而提高聚类性能;另一方面,考虑到原始数据与新数据的相似性,该算法能够处理2种漂移过程中的动态聚类问题:1)新数据与原始数据分享部分数据,其余数据与原始数据相似;2)没有相同的数据,新数据与原始数据有相似关系.在人工合成数据集D31,Birch3以及真实数据集Forest Covertpye,KDD CUP99的实验结果均显示出了所提之算法能够处理数据流聚类问题,并保证聚类性能稳定.
[Abstract]:In order to solve the dynamic clustering problem of data flow, a probabilistic representative point clustering algorithm is proposed. Firstly, the joint objective functions of AP(affinity propagation clustering algorithm and EEM(enhanced 伪 -expansion clustering algorithm are given based on the probability framework. A probabilistic clustering algorithm based on representative points is proposed. Secondly, according to the probability between the samples and their representative points, In this paper, a probabilistic drift dynamic 伪 -expansion data stream clustering algorithm is proposed, which makes the representative points of the new data as close as possible to the representative points of the original data, thus improving the clustering performance. On the other hand, considering the similarity between the original data and the new data, This algorithm can deal with the dynamic clustering problem of two drift processes: 1) the new data share part of the data with the original data, and the other data are similar to the original data and do not have the same data. The experimental results of the synthetic data set D31 / Birch3 and the real data set Forest overtpyeh CUP99 show that the proposed algorithm can deal with the data flow clustering problem and ensure the clustering performance is stable.
【作者单位】: 江南大学数字媒体学院;齐鲁工业大学信息学院;
【基金】:国家自然科学基金项目(6127220) 山东省高等学校科技计划项目(J14LN05) 江苏省普通高校研究生科研创新计划基金项目(KYLX_1124)~~
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 孟凡荣;李晓翠;周勇;;一种基于代表点的增量聚类算法[J];计算机应用研究;2012年08期
2 刘彤,郑永果;基于多代表点的聚类方法的改进[J];福建电脑;2005年06期
3 任江涛;丘正元;纪庆革;;一种基于投票机制的代表点选择算法[J];计算机应用;2007年01期
4 孙福明;洪日昌;吴秀清;;基于概率分布代表点的模型集合设计方法[J];控制理论与应用;2009年05期
5 黄云;洪佳明;覃遵跃;;一种基于置信度的代表点选择算法[J];计算机工程;2012年19期
6 张健飞;陈黎飞;郭躬德;李南;;多代表点的子空间分类算法[J];计算机科学与探索;2011年11期
7 陈园园;陈治平;;一种基于代表点和点密度的聚类算法[J];计算机工程与应用;2008年28期
8 陈可华;;基于多代表点的文本分类研究[J];郑州大学学报(工学版);2010年06期
9 倪维健;黄亚楼;李飞;刘赏;;一种基于加权多代表点的层次聚类算法[J];计算机科学;2005年05期
10 陈黎飞;郭躬德;;最近邻分类的多代表点学习算法[J];模式识别与人工智能;2011年06期
相关会议论文 前1条
1 张健;叶建栲;李广斌;;基于代表点的聚类算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
相关硕士学位论文 前2条
1 张友新;基于聚类的代表点获取算法及其应用[D];烟台大学;2013年
2 王晓u&;基于代表点的数据和文本聚类新方法的研究[D];天津大学;2006年
,本文编号:1530744
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1530744.html