xk-split:基于k-medoids的分裂式聚类算法
发布时间:2018-04-30 10:26
本文选题:数据挖掘 + 聚类 ; 参考:《华东理工大学学报(自然科学版)》2017年06期
【摘要】:近年来互联网数据规模呈爆炸式增长,如何对大数据进行分析已成为热门话题。然而,采集的数据很难直接用于分析,需要进行一定程度的预处理,以提高大数据质量。通过使用分裂式的迭代过程,可以逐步将数据集分裂为子集,避免了传统聚类算法聚类开始时需要确定集群数的限制,并降低了算法的时间复杂度。此外,通过基于阈值的噪声数据过滤,可以在迭代过程中剔除噪音数据,提升了聚类算法对脏数据的忍耐力。
[Abstract]:In recent years, the scale of Internet data has explosive growth, how to analyze big data has become a hot topic. However, the collected data is difficult to be directly used for analysis, and a certain degree of preprocessing is needed to improve big data's quality. By using the split iteration process, the data set can be divided into subsets step by step, which avoids the limitation of the number of clusters at the beginning of the traditional clustering algorithm and reduces the time complexity of the algorithm. In addition, noise data can be eliminated during iteration by filtering noise data based on threshold, which improves the tolerance of clustering algorithm to dirty data.
【作者单位】: 华东理工大学计算机科学与工程系;上海市计算机软件重点测评实验室;
【分类号】:TP311.13
【相似文献】
相关博士学位论文 前2条
1 超木日力格;基于雅克比矩阵的软划分聚类算法分析[D];北京交通大学;2017年
2 高兵;基于密度的数据流聚类方法研究[D];哈尔滨工程大学;2014年
相关硕士学位论文 前10条
1 程凯;聚类集成中基聚类器的优化研究[D];宁波大学;2017年
2 郭亚锐;面向大规模数据的多视角K-means聚类算法的研究[D];郑州大学;2017年
3 曹晓锋;面向维度的高维聚类边界检测技术研究[D];郑州大学;2017年
4 栗国保;基于MapReduce的分布式聚类算法的研究[D];江西理工大学;2017年
5 豆康康;基于改进H-K聚类算法的热点话题发现方法[D];哈尔滨工程大学;2014年
6 霍佳佳;一种基于聚类的语义WEB服务发现方法研究[D];哈尔滨工程大学;2014年
7 邱雪营;基于图像视觉上下文的多元IB聚类算法[D];郑州大学;2017年
8 郭慧丰;基于多特征信息融合的WEB广告聚类方法研究[D];哈尔滨工业大学;2014年
9 张灿龙;不确定DM-chameleon聚类算法在滑坡危险性预测的研究及应用[D];江西理工大学;2017年
10 许允栋;K-means聚类算法的改进与应用[D];广西师范大学;2015年
,本文编号:1824188
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1824188.html