当前位置:主页 > 科技论文 > 地质论文 >

K-means算法在地质灾害系统中的应用研究

发布时间:2020-08-08 18:48
【摘要】:K-means算法是一种经典的聚类算法。该算法操作简单,往往可以得到比较好的聚类效果。但是,该算法也存在一些不足:首先,聚类数K必须预先设定;其次,受初始聚类中心极影响大,如果选择的初始聚类中心不够分散,则不能很好的反映原始数据集的分布;最后,算法时间复杂度过高。为了减少K-means算法对初值的依赖性,提高算法的有效性,本文探讨了K-means算法初始聚类中心的优化选择问题,主要研究内容如下:1)在原始数据集上运用均匀抽样技术。在选择每一个聚类中心之前,K-means算法都要对数据库进行一遍扫描,这样会造成非常大的计算量,因此本文选择首先对原始数据集进行抽样,这样既起到对原始数据的预处理作用,而且能够将K-means算法的优越性发挥出来。2)在聚类的开始阶段,传统的UPGMA算法能够很好地发现密集区域,但不易发现聚类形成的次序,导致选择的初始聚类中心点不能代表实际数据集的分布状况,因此设置了聚类条件和筛选条件,以保证初始聚类中心候选点将全部来自高密度区域,同时避免边缘数据和噪声数据。但是改进的UPGMA算法也有缺点,即在聚类条件和筛选条件的控制上,如果设置不当,则无法避免选择的初始聚类中心点过于密集。如果在Canopy算法中加入最大最小距离算法,就能很好的弥补改进UPGMA算法的不足之处,保证得到的初始聚类中心不会过于密集,从而能够准确地体现出实际数据集的分布情况。3)设计出CMU-kmeans算法(K-means Algorithm based on Canopy with Min-Max Algorithm and UPGMA Algorithm)。该算法既能够自适应地判断出聚类数目k,又可以有效获得优化的初始聚类中心,因此在很大程度上保证了初值选择的科学性。4)使用改进的算法对地质灾害监测系统降雨量历史数据集进行聚类分析,通过实验,有效验证了改进算法有效性和适用性。
【学位授予单位】:西安工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:P694;TP311.13
【图文】:

数据分布,数据分布,数据集


西安工业大学硕士学位论文 K-means 算法进行之前的数据预处理阶段。首先,对待研究的机抽样,这样可以保证获得的数据集具有代表性,能够充分反映而且综合了 K-means 算法的各个优点,从而获得一组最佳的开始中心能够很真实的反映真实数据。然而,该抽样也有一些缺点:够取得很大规模的数据集,且有比较高的正确率,但是容易产生其次,虽然该抽样方法效率是比较高的,但是无法避免抽取的据分布之间存在偏差,从而得不到高的正确性。基于此,对于抽进行合适的把握。

框架图,算法,框架,聚类


3 一种改进的 CMU-kmeans 算法如下图 3.4 所示,CMU-kmeans 算法主要包括三个部心的优化,该算法运行于对原始数据集的抽取样本些最佳的初始聚类种子及初始聚类个数,这些聚类种始数据集分布,这是 CMU-kmeans 算法最为核心的类算法对样本数据对象集进行聚类,这是本改进算验以及对实验的评估,以验证本文提出的 CMU-km

数据集中,取值


图 4.1 Glass 数据集中 m%取值对准确率的影响中都包含不相关数据和孤立点数据,只是这些数据一般比据分布的子树数出现的可能性不大,所以将 p 设置为 90常量,本次实验用 0.5 来取值。价标准-means算法、改进的Canopy算法和本论文中提出的CM行评价的标准有很多,这里选择平均召回率(recall)两个标准的定义分别如式 4.1 和 4.2 所示。P(i, j)= precision(i, j) = Ni,j/ NiR(i, j)= recall(i, j) = Ni,j/ Nj类 i中包含的样本数据个数;Ni,j代表类别 j 中的分类 i象的个数。

【参考文献】

相关期刊论文 前10条

1 孟海东;任敬佩;;基于云计算平台的聚类算法[J];计算机工程与设计;2015年11期

2 武霞;董增寿;孟晓燕;;基于大数据平台hadoop的聚类算法K值优化研究[J];太原科技大学学报;2015年02期

3 谭跃生;杨宝光;王静宇;张亚楠;;Hadoop云平台下的聚类算法研究[J];计算机工程与设计;2014年05期

4 赵庆;;基于Hadoop平台下的Canopy-Kmeans高效算法[J];电子科技;2014年02期

5 周丽娟;王慧;王文伯;张宁;;面向海量数据的并行KMeans算法[J];华中科技大学学报(自然科学版);2012年S1期

6 毛典辉;;基于MapReduce的Canopy-Kmeans改进算法[J];计算机工程与应用;2012年27期

7 牛瑞卿;韩舸;;利用数据挖掘的滑坡监测数据处理流程[J];武汉大学学报(信息科学版);2012年07期

8 赵卫中;马慧芳;傅燕翔;史忠植;;基于云计算平台Hadoop的并行k-means聚类算法设计研究[J];计算机科学;2011年10期

9 刘文军;游兴中;;一种改进的凝聚层次聚类法[J];吉首大学学报(自然科学版);2011年04期

10 孙雪;李昆仑;胡夕坤;赵瑞;;基于半监督K-means的K值全局寻优算法[J];北京交通大学学报;2009年06期

相关硕士学位论文 前1条

1 张鑫;层次聚类算法的研究与应用[D];江西理工大学;2009年



本文编号:2785967

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/diqiudizhi/2785967.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户859b1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com