基于密度和距离的K-means算法研究与应用
本文选题:数据挖掘 + 聚类分析 ; 参考:《西安理工大学》2016年硕士论文
【摘要】:数据挖掘是在大数据集上的探索并揭示其隐含规律的一种计算过程,它融合了众多的技术,是计算机科学的重要分支。其中聚类分析是数据挖掘中重要的分析技术之一,聚类分析是按照相似度进行划分的,将本身没有类别的数据样本划分成不同的簇。本文选取的是K-means算法进行研究,它是数据挖掘中最基本的聚类算法。该算法的优点是执行简单、操作方便,但是也存在着诸多的缺点,比如:聚类形成的簇数K是由用户指定;初始聚类中心是随机选取的;该算法只能发现类球状的簇等。本文的工作主要分为以下三个方面:首先在K-means算法的理论研究上,一方面,剔除了影响聚类结果的孤立点和对初始聚类中心选取进行了改进。另一方面,在确定了初始聚类中心后,把数据点合理地分配到各个簇中;其次为了能对海量数据进行处理,把改进算法在Spark平台上进行了实现;最后本文将改进算法应用到了移动客户细分中。实验证明,改进后的K-means算法比传统K-means算法的聚类结果更加准确。本文借助Spark平台对改进算法进行并行化实现,从而能够在不影响准确度的情况下减少算法执行的时间。通过对细分变量的选择,把采集到的移动客户数据根据相似性划分成不同的类别,能够帮助移动数据信息分析人员对不同的客户群采取不同的营销策略。
[Abstract]:Data mining is a kind of computing process to explore and reveal the hidden rules on big data set. It combines many technologies and is an important branch of computer science. Clustering analysis is one of the most important analysis techniques in data mining. Clustering analysis is divided according to similarity, and the data samples that do not have a category are divided into different clusters. In this paper, K-means algorithm is selected, which is the most basic clustering algorithm in data mining. The advantage of this algorithm is that it is simple to execute and easy to operate, but it also has many disadvantages, such as: the number of clusters K formed by clustering is specified by the user; the initial cluster center is randomly selected; and the algorithm can only find globular clusters and so on. The work of this paper is divided into the following three aspects: firstly, in the theoretical research of K-means algorithm, on the one hand, the isolated points that affect the clustering results are eliminated and the selection of initial clustering centers is improved. On the other hand, after determining the initial clustering center, the data points are allocated to each cluster reasonably. Secondly, in order to process the massive data, the improved algorithm is implemented on the Spark platform. Finally, the improved algorithm is applied to mobile customer segmentation. Experimental results show that the improved K-means algorithm is more accurate than the traditional K-means algorithm. In this paper, the improved algorithm is parallelized with the help of Spark platform, which can reduce the execution time of the algorithm without affecting the accuracy. Through the selection of subdivision variables, the collected mobile customer data can be divided into different categories according to similarity, which can help mobile data information analysts to take different marketing strategies for different customer groups.
【学位授予单位】:西安理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【参考文献】
相关期刊论文 前10条
1 黄兴;刘小青;曹步清;唐明董;刘建勋;;融合K-Means与Agnes的Mashup服务聚类方法[J];小型微型计算机系统;2015年11期
2 杨红光;刘建生;;一种结合灰狼优化和K-均值的混合聚类算法[J];江西理工大学学报;2015年05期
3 孔令凯;向毅;梁松;;关于结合层次聚类和K-means算法进行聚类的研究[J];科技创新与应用;2015年25期
4 吴春瑾;;试分析数据挖掘中的统计方法及其应用研究[J];商;2015年19期
5 邢长征;谷浩;;基于平均密度优化初始聚类中心的k-means算法[J];计算机工程与应用;2014年20期
6 时甜甜;;移动互联网用户群的变化及影响[J];中国电信业;2013年09期
7 王荣;王飞戈;吴坤芳;;基于改进ROCK算法的个性化推荐系统研究[J];河南科学;2011年11期
8 卢秀惠;;Master/Slave型集群系统加速比的研究[J];渤海大学学报(自然科学版);2010年03期
9 谭本军;;聚类算法在移动客户细分中的应用[J];科技信息;2010年14期
10 龙真真;张策;刘飞裔;张正文;;一种改进的Chameleon算法[J];计算机工程;2009年20期
相关博士学位论文 前1条
1 杨善升;基于数据挖掘的若干化工过程优化和化合物构效关系研究[D];上海大学;2008年
相关硕士学位论文 前10条
1 李文栋;基于Spark的大数据挖掘技术的研究与实现[D];山东大学;2015年
2 秦国栋;以数据挖掘为基础的成都移动客户保有系统的设计与实现[D];电子科技大学;2015年
3 崔广风;数据挖掘中的统计方法及其应用研究[D];西南石油大学;2014年
4 常凯;基于神经网络的数据挖掘分类算法比较和分析研究[D];安徽大学;2014年
5 姚蒙;基于云计算平台的聚类算法的研究[D];武汉理工大学;2014年
6 冯琳;集群计算引擎Spark中的内存优化研究与实现[D];清华大学;2013年
7 许微;基于知识发现机制的企业决策支持系统构建研究[D];湘潭大学;2013年
8 庞巧红;数据挖掘技术在信用卡客户分析中的应用[D];西南财经大学;2012年
9 吴建峰;无线传感器网络数据压缩算法研究[D];杭州电子科技大学;2012年
10 谢毅;海量遥感影像数据存储组织结构研究[D];河南大学;2011年
,本文编号:1880590
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1880590.html