基于密度的局部离群点检测算法的改进
发布时间:2022-01-19 16:38
近年来,科学技术发展越来越快,信息知识的传播也更加广泛,数据挖掘这门技术在各方面得到了推广。数据挖掘为了在大规模的、不确定的数据集中,找出人们事先不知道的,但蕴含意义的知识。离群点检测作为数据挖掘的一个重要组成部分,主要用来找出显著偏离或不满足一般对象行为特征的对象。目前,离群点检测在生活中各领域已经得到了广泛地应用。传统的离群点检测算法在一定程度上只能检测出适用自身算法的异常数据对象,因此均存在一些缺陷,如检测效率低、检测精度差等。本文针对传统的基于密度算法的执行效率较低,并只在一定规模的数据集中有效,遇到大规模数据集时,通常查准率较低,重复计算的步骤过多等问题,从而提出了基于方形邻域和裁剪因子的离群点检测方法。首先,采用方形邻域,吸取网格算法的思想,以扩张的方形邻域代替网格分割,快速地排除聚类点,避免了网格算法的“维灾”问题。其次,为了提高算法的精确度,引入裁剪因子的概念对候选离群点集进行精选。然后,给出了新的局部稀疏指数来评估对象的离群程度。为了验证改进算法的性能,实验选取真实数据集和合成数据集进行仿真,并与传统的离群点检测算法进行比较分析。实验结果表明,改进的算法能有效的识别离...
【文章来源】:沈阳工业大学辽宁省
【文章页数】:40 页
【学位级别】:硕士
【部分图文】:
区域R中的离群点Fig2.1OutliersinregionR
[52-53]。图2.4 离群点的局部示意图Fig 2.4 Partial schematic of the outliers基于密度算法的重心是一个对象周围的密度。若邻域内数据对象的密度与它成为离群点的几率成反比。2.4 离群点检测方法的评价指标评价离群点检测算法的指标有很多种,在这里主要分为有F 值( F measure),召回率( recall ),准确率( precision ),分别用F 、R和P表示。在离群点检测中,假设待检测的数据集为D,rD 表示数据集中正常数据的集合,wD 表示异常的数据对象。满足| | | | | |r w=D D + D。检测正常点的数据集为 M
图 3.1 可达距离Fig.3.1 The reach-distance知,数据对象的邻域内数据的多少与参数k 成正比。局部可达密度[12]:''( )|| ( ) ||( )( )kkkko N oN olrd oreachdist o o∈=∑←离最近邻点的平均可达密度的倒数。。局部离群点因子LOF 的数学表达式[53]:''( )( )( )( )|| ( ) ||kko N o kkklrd olrd oLOF oN o∈=∑o的局部可达密度与近邻相除,确定该对象是否能够成
【参考文献】:
期刊论文
[1]基于局部密度的快速离群点检测算法[J]. 邹云峰,张昕,宋世渊,倪巍伟. 计算机应用. 2017(10)
[2]高维数据离群点检测的局部线性嵌入方法[J]. 邓廷权,刘金艳,王宁. 计算机工程与应用. 2018(06)
[3]一种基于密度的不确定数据离群点检测算法[J]. 姜元凯,郑洪源,丁秋林. 计算机科学. 2015(04)
[4]基于密度划分的离群点检测算法[J]. 魏龙,王勇. 计算机与现代化. 2015(03)
[5]DBSCAN算法中参数的自适应确定[J]. 李宗林,罗可. 计算机工程与应用. 2016(03)
[6]一种基于多重聚类的离群点检测算法[J]. 古平,刘海波,罗志恒. 计算机应用研究. 2013(03)
[7]一种基于密度的局部离群点检测算法DLOF[J]. 胡彩平,秦小麟. 计算机研究与发展. 2010(12)
[8]基于密度的局部离群点检测算法[J]. 张卫旭,尉宇. 计算机与数字工程. 2010(10)
[9]基于邻域和密度的异常点检测算法[J]. 陶运信,皮德常. 吉林大学学报(信息科学版). 2008(04)
[10]局部离群点挖掘算法研究[J]. 薛安荣,鞠时光,何伟华,陈伟鹤. 计算机学报. 2007(08)
博士论文
[1]离群检测算法研究[D]. 杨茂林.华中科技大学 2012
硕士论文
[1]局部离群点检测算法的研究[D]. 马菲.淮北师范大学 2016
[2]基于密度的局部离群点检测算法的研究与应用[D]. 周云锋.华中师范大学 2016
[3]基于密度的局部离群点挖掘及在入侵检测中应用研究[D]. 秦浩.大连海事大学 2016
[4]基于密度差异的离群点检测研究[D]. 辛丽玲.北京交通大学 2015
[5]基于密度的局部离群点检测算法的研究与改进[D]. 赵新想.华中师范大学 2014
[6]基于密度的局部离群数据挖掘方法的研究和改进[D]. 刘书志.重庆大学 2014
[7]基于k近邻树的离群检测算法研究[D]. 范小刚.重庆大学 2014
[8]数据挖掘中的离群点检测算法研究[D]. 胡婷婷.厦门大学 2014
[9]离群点检测及其应用研究[D]. 杨福萍.山东师范大学 2013
[10]基于密度的局部离群点检测算法分析与研究[D]. 揭财明.重庆大学 2012
本文编号:3597201
【文章来源】:沈阳工业大学辽宁省
【文章页数】:40 页
【学位级别】:硕士
【部分图文】:
区域R中的离群点Fig2.1OutliersinregionR
[52-53]。图2.4 离群点的局部示意图Fig 2.4 Partial schematic of the outliers基于密度算法的重心是一个对象周围的密度。若邻域内数据对象的密度与它成为离群点的几率成反比。2.4 离群点检测方法的评价指标评价离群点检测算法的指标有很多种,在这里主要分为有F 值( F measure),召回率( recall ),准确率( precision ),分别用F 、R和P表示。在离群点检测中,假设待检测的数据集为D,rD 表示数据集中正常数据的集合,wD 表示异常的数据对象。满足| | | | | |r w=D D + D。检测正常点的数据集为 M
图 3.1 可达距离Fig.3.1 The reach-distance知,数据对象的邻域内数据的多少与参数k 成正比。局部可达密度[12]:''( )|| ( ) ||( )( )kkkko N oN olrd oreachdist o o∈=∑←离最近邻点的平均可达密度的倒数。。局部离群点因子LOF 的数学表达式[53]:''( )( )( )( )|| ( ) ||kko N o kkklrd olrd oLOF oN o∈=∑o的局部可达密度与近邻相除,确定该对象是否能够成
【参考文献】:
期刊论文
[1]基于局部密度的快速离群点检测算法[J]. 邹云峰,张昕,宋世渊,倪巍伟. 计算机应用. 2017(10)
[2]高维数据离群点检测的局部线性嵌入方法[J]. 邓廷权,刘金艳,王宁. 计算机工程与应用. 2018(06)
[3]一种基于密度的不确定数据离群点检测算法[J]. 姜元凯,郑洪源,丁秋林. 计算机科学. 2015(04)
[4]基于密度划分的离群点检测算法[J]. 魏龙,王勇. 计算机与现代化. 2015(03)
[5]DBSCAN算法中参数的自适应确定[J]. 李宗林,罗可. 计算机工程与应用. 2016(03)
[6]一种基于多重聚类的离群点检测算法[J]. 古平,刘海波,罗志恒. 计算机应用研究. 2013(03)
[7]一种基于密度的局部离群点检测算法DLOF[J]. 胡彩平,秦小麟. 计算机研究与发展. 2010(12)
[8]基于密度的局部离群点检测算法[J]. 张卫旭,尉宇. 计算机与数字工程. 2010(10)
[9]基于邻域和密度的异常点检测算法[J]. 陶运信,皮德常. 吉林大学学报(信息科学版). 2008(04)
[10]局部离群点挖掘算法研究[J]. 薛安荣,鞠时光,何伟华,陈伟鹤. 计算机学报. 2007(08)
博士论文
[1]离群检测算法研究[D]. 杨茂林.华中科技大学 2012
硕士论文
[1]局部离群点检测算法的研究[D]. 马菲.淮北师范大学 2016
[2]基于密度的局部离群点检测算法的研究与应用[D]. 周云锋.华中师范大学 2016
[3]基于密度的局部离群点挖掘及在入侵检测中应用研究[D]. 秦浩.大连海事大学 2016
[4]基于密度差异的离群点检测研究[D]. 辛丽玲.北京交通大学 2015
[5]基于密度的局部离群点检测算法的研究与改进[D]. 赵新想.华中师范大学 2014
[6]基于密度的局部离群数据挖掘方法的研究和改进[D]. 刘书志.重庆大学 2014
[7]基于k近邻树的离群检测算法研究[D]. 范小刚.重庆大学 2014
[8]数据挖掘中的离群点检测算法研究[D]. 胡婷婷.厦门大学 2014
[9]离群点检测及其应用研究[D]. 杨福萍.山东师范大学 2013
[10]基于密度的局部离群点检测算法分析与研究[D]. 揭财明.重庆大学 2012
本文编号:3597201
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3597201.html