快速大样本同步聚类
本文关键词:快速大样本同步聚类
更多相关文章: 核密度估计(KDE) 抽样 同步 大样本 聚类
【摘要】:针对现有的Sync算法具有较高时间复杂度,在处理大样本数据集时有相当的局限性,提出了一种快速大样本同步聚类算法(Fast Clustering by Synchronization on Large Sample,FCSLS)。首先将基于核密度估计(KDE)的抽样方法对大样本数据进行抽样压缩,再在压缩集上进行同步聚类,通过Davies-Bouldin指标自动寻优到最佳聚类数,最后,对剩下的大规模数据进行聚类,得到最终聚类结果。通过在人造数据集以及UCI真实数据集上的实验,FCSLS可以在大规模数据集上得到任意形状、密度、大小的聚类且不需要预设聚类数。同时与基于压缩集密度估计和中心约束最小包含球技术的快速压缩方法相比,FCSLS在不损失聚类精度的情况下,极大地缩短了同步聚类算法的运行时间。
【作者单位】: 江南大学数字媒体学院;
【关键词】: 核密度估计(KDE) 抽样 同步 大样本 聚类
【基金】:国家自然科学基金(No.61272210)
【分类号】:TP311.13
【正文快照】: 1引言无监督、半监督数据分析方法是数据挖掘领域的两种主要方法,而无监督方法通过对没有概念标记的样本进行学习,以发现样本中隐藏的结构性知识,适用性广,难度较大,受到广泛关注。聚类分析(Cluster Analysis)是一种对样品或指标进行分类的多元统计分析方法,它们讨论的对象是
【相似文献】
中国期刊全文数据库 前10条
1 宋铭利;高新科;;基于距离的最大聚类数探索算法的探讨[J];矿山机械;2006年09期
2 田彦山;;基于山峰聚类的聚类上限确定方法[J];江西师范大学学报(自然科学版);2007年02期
3 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
4 于慧娟;崔军;毋晓志;李伟;;一种改进的凝聚图聚类方法[J];山西煤炭管理干部学院学报;2010年03期
5 崔军;郭春艳;贾宗维;;一种连通非加权图的快速聚类方法[J];计算机工程与应用;2008年07期
6 岳清华;郑刚;;一种动态心电图波形聚类策略的研究[J];天津理工大学学报;2008年01期
7 张逸清;刘文才;;聚类数的确定[J];计算机与数字工程;2007年02期
8 刘燕驰;;基于密度的最佳聚类数确定方法[J];中国管理信息化;2011年09期
9 王洪春;彭宏;;一种基于熵的聚类算法[J];计算机科学;2007年11期
10 宋铭利;高新科;;基于距离排序的无参化算法探讨[J];拖拉机与农用运输车;2006年04期
中国重要会议论文全文数据库 前9条
1 高翠芳;吴小俊;;基于二阶差分的聚类数自动确定方法[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
2 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 李浪波;傅彦;刘红;;基于范例推理的网格和密度聚类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 娄冬梅;陈明;朱有娜;;一种基于密度的无参数聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 程尊平;周鼎;王晨;周皓峰;汪卫;施伯乐;;SDPHC——基于密度的分割和分层的自校聚类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 张晓峰;王丽珍;陆叶;;一种基于属性加权的不确定K-means聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 蔡军;袁华鹏;陈金海;施伯乐;;一种基于相似性分析的聚类新算法:PDS算法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 胡仲义;郭超;王永炎;刘胜航;王宏安;;基于时间衰减和特征变量的数据流聚类算法[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国博士学位论文全文数据库 前10条
1 王振佳;基于基因表达数据的双聚类算法研究[D];山东大学;2016年
2 胡雅婷;可能性聚类方法研究及应用[D];吉林大学;2012年
3 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
4 周世兵;聚类分析中的最佳聚类数确定方法研究及应用[D];江南大学;2011年
5 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年
6 冯永;基于计算智能的聚类技术及其应用研究[D];重庆大学;2006年
7 刘晨;高伸缩性聚类分析方法研究[D];哈尔滨工程大学;2013年
8 王强;局部叠加基因表达模式聚类分析方法研究[D];哈尔滨工业大学;2012年
9 姜磊;混合演化聚类算法研究及其应用[D];武汉大学;2012年
10 尹学松;半监督聚类分析策略设计及其拓展性研究[D];南京航空航天大学;2009年
中国硕士学位论文全文数据库 前10条
1 牛品菽;基于图模型的高效聚类算法研究[D];北京交通大学;2016年
2 蔡洪山;大数据分析中的聚类算法研究[D];安徽理工大学;2016年
3 宋建林;K-means聚类算法的改进研究[D];安徽大学;2016年
4 李卫平;动力学背景下的聚类算法研究[D];郑州大学;2007年
5 汪娟;基于权重设计的聚类集成算法研究[D];重庆大学;2015年
6 王跃;联合聚类算法研究及应用[D];浙江大学;2012年
7 赵一洁;Mean Shift聚类分析技术在安全人居中的应用[D];长安大学;2011年
8 戴涛;聚类分析算法研究[D];清华大学;2005年
9 高f;基于密度聚类算法的改进方法研究[D];大连理工大学;2007年
10 吴书;类属型数据的聚类算法研究[D];厦门大学;2007年
,本文编号:944586
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/944586.html