当前位置:主页 > 科技论文 > 地质论文 >

一种改进的基于密度的半监督聚类及其在测井岩性识别中的应用

发布时间:2020-09-24 15:53
   随着信息技术的高速发展,数据的规模呈现爆炸式增长。从错综复杂的数据中挖掘出有价值的信息具有巨大的实际意义。聚类算法作为机器学习领域中的一类重要方法,被广泛应用于数据分析与挖掘中。DBSCAN算法是一种典型的聚类算法,以数据密度为度量,可以识别数据集中任意形状的类及噪音点。但是,算法在聚类过程中使用固定的参数聚类,对于非均匀密度的样本的聚类效果会大打折扣。本文以DBSCAN算法为研究对象,针对其对聚类参数敏感、在处理非均匀密度数据集时效果不理想等问题进行研究,提出了改进方法V-DBSCAN算法。V-DBSCAN可以更好的适合非均匀密度聚类。该算法的主要思想是先找出高密度的类簇,然后改变参数值继续聚类,发现较低密度的类簇。不断改变参数的值,这样不同密度的类簇就会被区分。在不断的聚类过程中也伴随着类簇的合并。这时加入半监督的学习方法,用已知点的标签信息或者约束信息实现已生成的类簇的合并,提高合并过程的速度和精度。同时,建立了R树索引,以提高程序的运行效率。由于地质储层数据的复杂性,传统的测井岩性识别方法效果并不理想,所以将本文改进的方法运用在岩性识别上,作为改进的算法的实际应用检验。实验在测井岩性识别上运用了V-DBSCAN算法,采用了三种不同的距离与K-means,KNN和NBC算法做比较,分析了这四种算法在岩性识别的准确率上的差异,实验结果说明了该算法应用在测井数据的岩性识别的准确性高于其他算法,证明了V-DBSCAN能较好地应用于测井岩性识别。
【学位单位】:中国地质大学(北京)
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.13;P631.81
【部分图文】:

示意图,聚类过程,密度,示意图


度对样本点间相似关系的传递,DBSCAN 保证了样本的连通性和最大型(孙凌燕,2009)。下图则很好地说明了 DBSCAN 的计算过程。图3-1 密度聚类过程示意图算法的伪代码如下算法1 DBSCAN输入:D, Eps, MinPts输出: cluster,noiseC = 0(1) for each unvisited point P in dataset Dmark P as visited

聚类数据,密度


于密度的检测聚类的方法是基于这样的思想,即簇内数据点的密度,或者密度变化与其他簇相比通常是大的。同时,也可以利用距离邻域的形状和大小。此外,包含噪声数据点的区域的密度低于任何里的关键思想是簇内邻域半径中的每个数据点附近的数字数据点总据点(周红芳, 2012)。显然,属于聚类的每个数据点附近的密度应邻域半径的预定义阈值,否则点被认为是噪声(吴月娴等, 2006)。于在进行聚类时,传统的 DBSCAN 算法使用的是全局密度参数,类的错误。如图 3-2 所示,在同一类的轨迹中,明显存在密度不同的用固定的全局密度,会把同一类的样本点错误地划分到不同的类别 2015)。如图,在密度出现变化的区间,就可能产生错误。如果选择会使同属一类但密度较稀疏点,尤其为边界点不能聚类在一起,出结果。而如果选择较小的 Eps,则会把距离较近但不属于一类的样于同一类。

树结构


1) 相同路径矩形所包含的面积应该取最小,尽可能不要被上级矩形和下级形所覆盖。2) 为了减少运算时间,不同路径的矩形的面积不要有重叠。3) 矩形的边长尽可能为最小。由几何知识可知,正方形可使得满足包含条的边长最小(李春葆等, 2007)。为了减小矩形面积,也可以把边长方差小的矩形 包含在一起。4) 优化存储空间。保持树的结构在一个较低的高度,可以有效提高查询效有证据表明,树的高度对查询的速度影响很大。经典的 R 树结构如下所示

【相似文献】

相关期刊论文 前10条

1 熊忠阳,孙思,张玉芳,王秀琼;一种基于划分的不同参数值的DBSCAN算法[J];计算机工程与设计;2005年09期

2 蔡颖琨,谢昆青,马修军;屏蔽了输入参数敏感性的DBSCAN改进算法[J];北京大学学报(自然科学版);2004年03期

3 张枫;邱保志;;基于网格的高效DBSCAN算法[J];计算机工程与应用;2007年17期

4 张灿龙;李忠利;陈华彬;;一种改进DBSCAN密度聚类算法[J];数字技术与应用;2016年11期

5 冯少荣;肖文俊;;一种提高DBSCAN聚类算法质量的新方法[J];西安电子科技大学学报;2008年03期

6 赵文;夏桂书;苟智坚;闫振兴;;一种改进的DBSCAN算法[J];四川师范大学学报(自然科学版);2013年02期

7 陈敏;高学东;;并行DBSCAN聚类算法[J];中国管理信息化;2010年05期

8 王小龙;;论DBSCAN算法在图像分割中分类的实现[J];电子技术与软件工程;2013年12期

9 陈立潮;聂跃光;李静;姜燕;;DBSCAN算法在公路选线中的应用[J];计算机应用;2008年S1期

10 王桂芝;王广亮;;快速DBSCAN算法的研究与实现[J];福建电脑;2010年06期

相关会议论文 前10条

1 宫蕊;舒红平;郭远远;;基于DBSCAN的密度聚类算法的研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

2 马帅;宋国杰;唐世渭;杨冬青;王腾蛟;;基于单元划分的DBSCAN聚类算法[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

3 朵春红;王翠茹;;基于取样的DBSCAN聚类算法及其遗传优化[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年

4 张伟;徐远;;两步聚类方法[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年

5 王李_g;孙斌;;基于改进的DBSCAN聚类算法的云任务调度策略研究[A];2016年全国通信软件学术会议程序册与交流文集[C];2016年

6 于健;陈子军;李霞;李炜;;一种新的多密度聚类算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

7 赖桃桃;冯少荣;张东站;;一种基于划分和密度的快速聚类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

8 刘彤;孙永香;张振洪;;一种有效的基于密度和层次的聚类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年

9 曹晶;周水庚;范晔;周傲英;;数据分区:一种改善基于密度的聚类算法的方法[A];第十六届全国数据库学术会议论文集[C];1999年

10 任伟;闫桂英;;利用聚类算法来研究基因选择问题[A];中国运筹学会第八届学术交流会论文集[C];2006年

相关重要报纸文章 前3条

1 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年

2 特约记者 白阳 王刚 颜冬;山东电信开放聚类市场承包经营[N];通信信息报;2012年

3 本报记者 张轶群;聚类成为大数据认知突破口[N];中国电子报;2015年

相关博士学位论文 前10条

1 王振佳;基于基因表达数据的双聚类算法研究[D];山东大学;2016年

2 张强;聚类算法的维度分析[D];天津大学;2007年

3 张琳;基于期刊聚类的科学结构研究[D];大连理工大学;2010年

4 任亚洲;高维数据上的聚类方法研究[D];华南理工大学;2014年

5 许玉杰;云计算环境下海量数据的并行聚类算法研究[D];大连海事大学;2014年

6 朱红;粒度聚类方法研究[D];中国矿业大学;2013年

7 姜磊;混合演化聚类算法研究及其应用[D];武汉大学;2012年

8 李飒;数据流软聚类理论及其在瓦斯灾害预警中的应用[D];辽宁工程技术大学;2014年

9 王佐;基于粗糙集的聚类算法研究[D];吉林大学;2013年

10 兰远东;基于图的半监督学习理论、算法及应用研究[D];华南理工大学;2012年

相关硕士学位论文 前10条

1 丁宁;一种改进的基于密度的半监督聚类及其在测井岩性识别中的应用[D];中国地质大学(北京);2018年

2 李静;结合蚁群算法与基于划分的DBSCAN聚类算法的研究[D];东北师范大学;2011年

3 王俊;面向大数据的DBSCAN聚类算法研究[D];解放军信息工程大学;2017年

4 田路强;基于DBSCAN的分布式聚类及增量聚类的研究与应用[D];北京工业大学;2016年

5 张枫;基于网格的DBSCAN算法和聚类边界技术的研究[D];郑州大学;2007年

6 白雪;一种基于网格的密度聚类算法研究及应用[D];哈尔滨工程大学;2009年

7 冯振华;基于DBSCAN聚类算法的研究与应用[D];江南大学;2016年

8 虞倩倩;基于数据划分的DBSCAN算法研究[D];江南大学;2013年

9 王实美;基于DBSCAN的自适应非均匀密度聚类算法研究[D];北京交通大学;2017年

10 吴林敏;针对非均匀数据集的DBSCAN过滤式改进算法[D];重庆大学;2009年



本文编号:2825932

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/diqiudizhi/2825932.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7bd4c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com