面向大规模数据的多视角K-means聚类算法的研究
本文选题:大规模多视角数据 切入点:多视角聚类 出处:《郑州大学》2017年硕士论文 论文类型:学位论文
【摘要】:在过去的几十年,收集了越来越多的多源数据或者多视角数据,每个视角具有不同的数据特征来表示数据。传统的聚类算法在处理聚类分析问题时已经显示出它的不足,多视角聚类方法便应运而生。现有的多视角聚类算法分为三类,即:协同聚类算法、基于多核的聚类算法以及基于子空间的多视角聚类算法。但是,随着数据量的爆炸式增长,越来越多的大规模多视角数据涌现,亟待人们去挖掘处理。现有的处理大规模数据的方法主要有四类,即:基于抽样的方法、基于聚类特征选择的方法、基于约束信息的半监督聚类算法和基于分布式平台的聚类算法。这些方法都是针对大规模单视角数据的聚类算法,不能直接用来解决大规模多视角聚类的问题。本文针对多视角聚类问题面临的这种状况进行了相关的研究。论文的主要工作和创新如下:1、对面向大规模数据的单视角聚类和现有的多视角聚类算法进行了归纳总结,指出了其原理和适用范围。并特别指出现有的多视角聚类算法在处理大规模数据方面存在的不足。2、针对现有多视角聚类在处理大规模数据方面存在的不足,提出了一种面向大规模数据的多视角K-means聚类算法(Multi-view K-means Clustering Algorithm on Large Data,LKMC)。该算法使用l_(1,2)结构化稀疏诱导范数对目标函数优化,在对数据均匀分块的基础上,对每个数据块进行多视角聚类,并计算其中心,然后对中心再进行多视角聚类从而得到最终结果。该算法具有对初始点的选择不敏感的特点且能处理大规模数据集。实验验证了其有效性。
[Abstract]:In the past few decades, more and more data collected multi-source and multi view data, each data perspective has different features to represent the data. The traditional clustering algorithm in clustering analysis problem processing has shown its shortcomings, multi view clustering method comes into being. The existing multi view clustering algorithm is divided into three class, namely: collaborative clustering algorithm, clustering algorithm based on multi core and multi view clustering algorithm based on subspace. However, with the explosive growth of data, large-scale multi view data more and more urgent for people to emerge, mining method to deal with large-scale data processing. There are four main categories, namely: sampling the method based on Clustering method based on feature selection, clustering algorithm based on semi supervised clustering algorithm based on constraint information and distributed platform. These methods are based on the number of large-scale single view According to the clustering algorithm, which can not be used to solve large-scale multi view clustering problem. Researches the situation according to the multi view clustering problem. The main work and innovation are as follows: 1, opposite to multi view clustering algorithm in single view clustering large-scale data and existing were summarized, pointed out. The principle and application scope. And especially pointed out that the shortcomings of.2 multi view clustering algorithm existing in large-scale data processing, aiming at the problems in large-scale data processing of existing multi view clustering, is proposed for large-scale data multi view clustering algorithm K-means (Multi-view K-means Clustering Algorithm on Large Data, LKMC). The algorithm uses l_ (1,2) structured sparse induced norm to optimize the objective function, based on the uniform data blocks, for each block of data. Multi angle clustering is performed and the center is calculated. Then the center is clustered with multi view to get the final result. The algorithm has the characteristics of insensitivity to the initial point selection and can handle large scale data set. The validity of the algorithm is verified by experiments.
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 张艳宁,赵荣椿,梁怡;一种有效的大规模数据的分类方法[J];电子学报;2002年10期
2 姜英姿;;大规模数据的计算机处理技术[J];徐州工程学院学报;2005年05期
3 刘忠宝;赵文娟;;面向大规模数据的模糊支持向量数据描述[J];广西大学学报(自然科学版);2012年06期
4 牛新征;佘X;;面向大规模数据的快速并行聚类划分算法研究[J];计算机科学;2012年01期
5 汪西莉,刘芳,焦李成;基于大规模数据的支撑矢量机的训练和分类[J];西安电子科技大学学报;2002年01期
6 杜奕强;;利用廉价计算机实现大规模数据处理的技术研究与实现[J];自动化与信息工程;2014年01期
7 刘光明;周越;张瑞虹;白瑞俊;;云存储的关键技术与应用探讨[J];中国高新技术企业;2012年30期
8 谌超;强保华;石龙;;基于Hadoop MapReduce的大规模数据索引构建与集群性能分析[J];桂林电子科技大学学报;2012年04期
9 刘春艳;;基于云的招生系统研究与设计[J];电子技术与软件工程;2013年13期
10 蔡秋茹;柳益君;罗烨;朱广萍;叶飞跃;;基于K-means聚类的电信企业客户分群决策[J];江南大学学报(自然科学版);2010年02期
相关会议论文 前3条
1 徐健;陈光喜;;一种基于优化处理较大规模数据的支持向量分类机[A];第八届中国青年运筹信息管理学者大会论文集[C];2006年
2 杨青;刘晔;张东旭;刘畅;;快速查找最优初始聚类数K的改进K-means算法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
3 陈磊;胡佳敏;严华;;K-means算法在散货船代货运系统中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
相关重要报纸文章 前2条
1 王丽;为大规模数据中心建设保驾护航[N];中国经营报;2005年
2 ;戴尔务实推动云计算发展[N];网络世界;2010年
相关博士学位论文 前2条
1 黄成泉;大规模数据的多视角、多任务分类/聚类方法及应用研究[D];江南大学;2016年
2 金冉;面向大规模数据的聚类算法研究及应用[D];东华大学;2015年
相关硕士学位论文 前10条
1 郭亚锐;面向大规模数据的多视角K-means聚类算法的研究[D];郑州大学;2017年
2 马翠云;基于HBase的大规模数据存储解决方案的设计和实现[D];山东大学;2015年
3 周钊泽;面向大规模数据的局部在线学习[D];中山大学;2015年
4 田大鑫;基于GIS的大规模数据下K优路径规划算法的研究与实现[D];北京理工大学;2016年
5 杨婷;Web页面中的大规模数据折线图优化方法研究[D];浙江大学;2017年
6 陈智;基于K-means聚类算法的机会网络群组移动模型及其长相关性研究[D];湘潭大学;2015年
7 许允栋;K-means聚类算法的改进与应用[D];广西师范大学;2015年
8 丁斌;基于布谷鸟算法的K-means聚类挖掘算法研究[D];合肥工业大学;2015年
9 贺艳芳;熵加权多视角核k-means聚类算法的研究[D];郑州大学;2016年
10 陈克;基于K-means算法的CSS Sprites图片合成技术的研究[D];东北师范大学;2016年
,本文编号:1623085
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1623085.html