当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于聚类离群因子和唯一最近邻居集的离群点挖掘算法

发布时间:2021-04-12 21:48
  离群点检测作为数据挖掘技术的重要研究领域之一,是发现数据价值的一种重要手段,可以用来从大量的数据中挖掘出与大多数数据呈现不一致规律的异常点,这些异常点往往蕴藏着更加有价值的信息。正是由于离群点检测有着如此重要的研究意义,使得国内外学者在该领域的研究十分活跃。本文针对基于聚类的离群点检测算法存在的低效率、低耦合性问题进行了深入研究,主要研究内容包括以下两个方面。首先,本文对基于密度峰值快速搜索聚类的离群点检测算法进行了研究,为解决该算法存在的参数问题和决策欺诈现象进,提出了基于聚类离群因子的离群点检测算法,该算法引入相互邻居和相互邻居搜索算法用以解决参数问题;提出相互密度的概念用以刻画数据与周围数据点的紧密程度以抑制决策欺诈现象;提出聚类的离群因子用以度量聚类离群程度。该算法根据聚类的离群因子找出离群聚类以检测离群点。其次,对基于唯一最近邻居集和密度聚类的离群点检测算法进行了研究,为解决该算法存在的假近邻现象、聚类合并现象进,提出了一种改进的基于唯一最近邻居集的离群点检测算法。该算法使用唯一最近邻居集基数检测孤立离群点,使用聚类离群因子检测离群小聚类,并引入传播范围阈的概念,用以解决聚类... 

【文章来源】:燕山大学河北省

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

基于聚类离群因子和唯一最近邻居集的离群点挖掘算法


服从高斯分布的样本点分布情况

森林,湿度,离群点,情况


数据集中出现明显不同于其它对象的数据点,离群点检测是用来确定小部分数据对象与剩余的大部分数据明显不同或者不一致的问题。获得广大研究人员认可的是Hawkins[1]1-2给出的离群点定义,离群点是数据集中偏离大部分数据的数据,由于偏离其它记录的规则太多,使人怀疑这些数据的偏离并非由随机因素产生,而是因为完全不同的因素产生的。例如图 2-1 中,一共 102 个数据点其中大部分对象服从高斯分布,然而区域 R中的数据对象显著不同,他们只是散乱分布的点,因此在该数据集中区域 R 中的数据点为离群点。例如图 2-2 中展示的是传感器某时间段内监测到的森林环境的温度和湿度信息,在指定半径的 R 区域中红色对象 x1~x4的邻居数数量均少于 3 个,远小于绿色数据点的邻居数量,因此被认为是离群点,通过分析可以发现,x1,x2对象的湿度较小而温度较高,推断该区域可能是因为阳光直晒导致的局部温度过高导致森林火灾。同理,x3,x4数据点处的温度较低而湿度较大,推断可能是因为洪涝灾害导致的。由此可见离群点检测可用于决策支持,给生产生活带来指导作用,意义重大。

离群点,分类标准


图 2-3 离群点的分类标准合中,一个样本点是情景离群点(Contextual O地偏离其它对象[32]545-546。例如,今的温度为-3间和地点,如果在哈尔滨的冬天这是正常的,与全局离群点不同,情景离群点依赖于特定的定的条件必须做为定义的一部分加以说明,情景下检测离群点,这一点很具使用价值。局部离群点[33]的推广。局部密度是基于密度的果如果一个样本点的密度明显偏离它所在的局局部离群点。

【参考文献】:
期刊论文
[1]聚类剪枝算法在离群点检测中的应用[J]. 张青.  广东通信技术. 2018(12)
[2]改进的DBSCAN聚类和LAOF两阶段混合数据离群点检测方法[J]. 石鸿雁,马晓娟.  小型微型计算机系统. 2018(01)
[3]基于密度的局部离群数据挖掘算法研究[J]. 许琳,赵茂先.  山东理工大学学报(自然科学版). 2016(06)
[4]基于累积全熵的子空间聚类离群点检测算法[J]. 张忠平,房春珍.  计算机集成制造系统. 2015(08)
[5]一种基于偏离的局部离群点检测算法[J]. 周世波,徐维祥.  仪器仪表学报. 2014(10)
[6]一种基于多重聚类的离群点检测算法[J]. 古平,刘海波,罗志恒.  计算机应用研究. 2013(03)
[7]离群点挖掘研究[J]. 徐翔,刘建伟,罗雄麟.  计算机应用研究. 2009(01)
[8]一种基于K-Means局部最优性的高效聚类算法[J]. 雷小锋,谢昆青,林帆,夏征义.  软件学报. 2008(07)
[9]局部离群点挖掘算法研究[J]. 薛安荣,鞠时光,何伟华,陈伟鹤.  计算机学报. 2007(08)
[10]离群数据挖掘综述[J]. 黄洪宇,林甲祥,陈崇成,樊明辉.  计算机应用研究. 2006(08)

硕士论文
[1]局部离群点检测算法的研究[D]. 马菲.淮北师范大学 2016
[2]基于聚类和密度的离群点检测方法[D]. 陶晶.华南理工大学 2014
[3]数据挖掘中的离群点检测算法研究[D]. 胡婷婷.厦门大学 2014
[4]GML时空离群点挖掘技术研究[D]. 吴国洋.江西理工大学 2011



本文编号:3134040

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3134040.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ad485***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com