大规模数据集引力同步聚类
本文选题:大规模数据 切入点:快速压缩集密度估计 出处:《控制与决策》2017年06期 论文类型:期刊论文
【摘要】:受Kuramoto模型启发,构造一种新的万有引力同步模型,用以解决现有同步聚类算法时间复杂度高的问题,并提出大规模数据集的引力同步聚类算法(LSCGS).首先,使用快速压缩集密度估计(RSDE)算法对大规模数据集进行压缩;然后,通过万有引力同步聚类算法对压缩数据集进行聚类,使用Davies-Bouldin指标自动寻优到最佳聚类数;最后,利用提出的剩余样本聚类(RSC)算法对除压缩集以外的剩余数据进行聚类,可以有效地区分孤立类以及噪声点.通过在大规模人造数据集、UCI真实数据集和图像数据上的实验,验证LSCGS算法的有效性,与传统同步聚类算法相比,聚类的运算成本得到大幅度的降低.
[Abstract]:Inspired by Kuramoto model, a new universal gravity synchronization model is constructed to solve the problem of high time complexity of existing synchronous clustering algorithms, and a gravity synchronous clustering algorithm for large-scale data sets is proposed. The fast compressed set density estimation (RSDE) algorithm is used to compress the large-scale data set. Then, the compressed data set is clustered by the gravity synchronous clustering algorithm, and the Davies-Bouldin index is used to automatically optimize to the best clustering number. By using the proposed residual sample clustering algorithm to cluster the remaining data except the compressed data, the isolated data and the noise points can be effectively distinguished. The experiments on UCI real data sets and image data in large scale artificial data sets are carried out. The effectiveness of the LSCGS algorithm is verified. Compared with the traditional synchronous clustering algorithm, the operation cost of the clustering algorithm is greatly reduced.
【作者单位】: 江南大学数字媒体学院;
【基金】:国家自然科学基金项目(61272210,61170122) 江苏省自然科学基金项目(BK20130155)
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 ;数据集N鄽2[J];航空材料;1959年09期
2 江海洪 ,罗长坤;首套中国数字化可视人体数据集在第三军医大学研制成功[J];中华医学杂志;2003年09期
3 陈相颖;数据集记录快速定位与筛选方法之探讨[J];计量与测试技术;2005年06期
4 王宏鼎;唐世渭;董国田;;数据集成中数据集特征的检测方法[J];中国金融电脑;2006年03期
5 张华;郁书好;;时空数据集的连接处理和优化方法研究[J];皖西学院学报;2006年02期
6 苗卿;单立新;裘昱;;信息熵在数据集分割中的应用研究[J];电脑知识与技术(学术交流);2007年05期
7 陈德诚;丘平珠;唐炳莉;;广西气象数据集设计与制作[J];气象研究与应用;2007年04期
8 赵凤英;王崇骏;陈世福;;用于不均衡数据集的挖掘方法[J];计算机科学;2007年09期
9 冯璐;冷伏海;;基于领域分析需求和目标的领域分析数据集界域研究[J];图书情报工作;2009年24期
10 宋金玲;赵威;刘欣;黄立明;李金才;刘国华;;k-匿名数据集的增量更新算法[J];计算机科学;2010年04期
相关会议论文 前7条
1 田捷;;三维医学影像数据集处理的集成化平台[A];2003年全国医学影像技术学术会议论文汇编[C];2003年
2 范明;魏芳;;挖掘基本显露模式用于分类[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 段磊;唐常杰;左R,
本文编号:1594080
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1594080.html