基于子空间的局部离群点检测算法研究
发布时间:2021-01-03 06:29
局部离群点检测是数据挖掘领域的热点研究问题之一。信息技术的高速发展使各个领域内可以采集、获取到的数据信息逐渐增多,数据集的数据维数不断增长,高维数据随处可见。高维数据集中的数据在全局空间下,分布稀疏,数据对象趋近于均匀分布,数据集中的离群点被隐藏在高维空间中,传统的离群点检测算法不容易检测出这些离群点。子空间可以看作是数据集全局空间的一个低维投影,如何找到与离群信息相关的子空间,并在子空间中使用传统的离群点检测算法检测局部离群点,是目前高维数据局部离群点检测的主要研究方向。本文对已有的离群点检测算法进行分析与研究,对高维数据离群点检测的两个步骤:子空间选择与在子空间中使用离群点检测算法分别展开研究,提出一种基于子空间的局部离群点检测算法,主要内容如下:(1)针对局部离群点检测问题,提出一种基于局部估计密度的局部离群点检测算法。首先,使用带宽可以根据邻域稀疏、密集情况调整的核密度估计方法,计算数据对象的局部估计密度;然后,使用数据对象邻域中其它数据对象的平均局部估计密度与自身局部估计密度的比值,计算数据对象的局部离群因子;最后,使用数据对象的局部离群因子判断数据对象是否为离群点,将离群因...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图1.1二维数据中的局部离群点示例图??Fig.?1.1?An?example?of?outlier?in?the?two-dimensional?data?set??
??大连^事大学硕士学位论文???称为全局离群点。然而在实际应用中,收集到的数据通常具有不完整的特点,并且数据??集中不同簇的密度往往不同,使用全局离群点检测算法会导致一些较稀疏的族中的数据??对象被全部标记为全局离群点,而较密集的簇中存在的异常信息也不能被很好的识别出??来,因此一些研究学者开始关注局部范围内数据所包含的信息,即局部离群点检测。??Breunig最先提出局部离群点的定义局部离群点是指在数据集中与其邻域表现??不一致或偏离其邻域的离群点。以图1.2中的二维数据点集为例,数据点集大致可以划??分为两个簇,其中数据对象0距离簇C2中的数据对象的距离与簇C1内部数据对象间??的距离相似,但远远大于簇C2内部数据对象间的距离,即从整体数据集来看,数据对??象0不属于全局离群点,但从局部范围来看,数据对象O是离群点,这种离群点被称??为局部离群点。??'C1??,.(::V)??@?一??'?J?.???_?1?丨?■?,??图1.2二维数f中的局部离群点示例图??Fig.?1.2?An?example?of?local?outlier?in?the?two-dimensional?data?set??目前,己有较多的研宄关注局部离群点检测,但这些算法更多的是适用于维数较低??的数据集,对高维数据的离群点检测关注相对较少,这些算法在高维数据上的使用往往??无法达到预期效果。出现这一问题的主要原因是“维数灾难”产生的距离失效问题,.即数??据集在高维空间中的分布趋近于均匀分布,算法无法从均匀分布的数据中准确地找到离??群点。通常,离群点的离群原因可以被某个或某几个属性维度所解释,即可以通过对原??始
?大连海事大学硕士学位论文???子空间可以看作是全局空间的一个低维投影。以图1.3为例,图1.3?(a)中表示全??局空间为{S1,S2,?S3}的三维点集中的数据对象在子空间{S1,S2}中的分布情况,图1.3(b)??中表示全局空间为{S1,S2,S3丨的三维点集中的数据对象在子空间{S2,S3丨中的分布情况,??从图中可以看出,离群点R在子空间{S1,S2}中无法被检测出,而在子空间{S2,S3丨中则??表现出明显的离群性。??引入子空间技术后的离群点检测过程如图1.4所示,首先使用子空间技术,基于数??据集的全局空间构造适合用于离群点检测的子空间集合RS,之后遍历集合RS,在各个??子空间S中使用离群点检测算法,直到集合RS中的所有子空间都参与计算。不同的子??空间选择方法使用不同的评价指标作为子空间选择的依据,并且由于数据集的子空间数??随着数据维度的增长呈指数增长,因此遍历计算所有的子空间质量并进行排序,选择质??量较大的子空间添加到集合RS中,这种方法计算量极大,不具有可行性。一个合理、??可行的子空间选择方法需要找到可以适应后续离群点检测算法的子空间质量的量化标??准,并在不遍历所有子空间的前提下构造子空间质量较髙的集合。??基于上述背景,为了解决高维数据的局部离群点检测问题,本文提出一种基于子空??间的局部离群点检测算法,用来改善离群点检测算法检测高维数据中局部离群点的能力。??这种方法对于离群点检测算法的实际应用具有重要意义。??■??I??■??_?■?■?■?■??■?■?■?■?■?■?■??S1?■?■?■?■?S2?■??■?■?■?■?■?■??_?■?_?
【参考文献】:
期刊论文
[1]基于方形邻域和裁剪因子的离群点检测方法[J]. 涂晓敏,石鸿雁. 小型微型计算机系统. 2019(01)
[2]相关子空间中的局部离群数据挖掘算法研究[J]. 李永红,张继福,荀亚玲. 小型微型计算机系统. 2015(03)
[3]基于自适应的高对比性子空间的高维离群点检测[J]. 赵保同,薛安荣,董国宾. 计算机应用研究. 2013(10)
[4]基于边界和距离的离群点检测[J]. 江峰,杜军威,眭跃飞,曹存根. 电子学报. 2010(03)
[5]基于无指导离群点检测的网络入侵检测技术[J]. 黄俊,韩玲莉,陈光平. 小型微型计算机系统. 2007(11)
本文编号:2954491
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图1.1二维数据中的局部离群点示例图??Fig.?1.1?An?example?of?outlier?in?the?two-dimensional?data?set??
??大连^事大学硕士学位论文???称为全局离群点。然而在实际应用中,收集到的数据通常具有不完整的特点,并且数据??集中不同簇的密度往往不同,使用全局离群点检测算法会导致一些较稀疏的族中的数据??对象被全部标记为全局离群点,而较密集的簇中存在的异常信息也不能被很好的识别出??来,因此一些研究学者开始关注局部范围内数据所包含的信息,即局部离群点检测。??Breunig最先提出局部离群点的定义局部离群点是指在数据集中与其邻域表现??不一致或偏离其邻域的离群点。以图1.2中的二维数据点集为例,数据点集大致可以划??分为两个簇,其中数据对象0距离簇C2中的数据对象的距离与簇C1内部数据对象间??的距离相似,但远远大于簇C2内部数据对象间的距离,即从整体数据集来看,数据对??象0不属于全局离群点,但从局部范围来看,数据对象O是离群点,这种离群点被称??为局部离群点。??'C1??,.(::V)??@?一??'?J?.???_?1?丨?■?,??图1.2二维数f中的局部离群点示例图??Fig.?1.2?An?example?of?local?outlier?in?the?two-dimensional?data?set??目前,己有较多的研宄关注局部离群点检测,但这些算法更多的是适用于维数较低??的数据集,对高维数据的离群点检测关注相对较少,这些算法在高维数据上的使用往往??无法达到预期效果。出现这一问题的主要原因是“维数灾难”产生的距离失效问题,.即数??据集在高维空间中的分布趋近于均匀分布,算法无法从均匀分布的数据中准确地找到离??群点。通常,离群点的离群原因可以被某个或某几个属性维度所解释,即可以通过对原??始
?大连海事大学硕士学位论文???子空间可以看作是全局空间的一个低维投影。以图1.3为例,图1.3?(a)中表示全??局空间为{S1,S2,?S3}的三维点集中的数据对象在子空间{S1,S2}中的分布情况,图1.3(b)??中表示全局空间为{S1,S2,S3丨的三维点集中的数据对象在子空间{S2,S3丨中的分布情况,??从图中可以看出,离群点R在子空间{S1,S2}中无法被检测出,而在子空间{S2,S3丨中则??表现出明显的离群性。??引入子空间技术后的离群点检测过程如图1.4所示,首先使用子空间技术,基于数??据集的全局空间构造适合用于离群点检测的子空间集合RS,之后遍历集合RS,在各个??子空间S中使用离群点检测算法,直到集合RS中的所有子空间都参与计算。不同的子??空间选择方法使用不同的评价指标作为子空间选择的依据,并且由于数据集的子空间数??随着数据维度的增长呈指数增长,因此遍历计算所有的子空间质量并进行排序,选择质??量较大的子空间添加到集合RS中,这种方法计算量极大,不具有可行性。一个合理、??可行的子空间选择方法需要找到可以适应后续离群点检测算法的子空间质量的量化标??准,并在不遍历所有子空间的前提下构造子空间质量较髙的集合。??基于上述背景,为了解决高维数据的局部离群点检测问题,本文提出一种基于子空??间的局部离群点检测算法,用来改善离群点检测算法检测高维数据中局部离群点的能力。??这种方法对于离群点检测算法的实际应用具有重要意义。??■??I??■??_?■?■?■?■??■?■?■?■?■?■?■??S1?■?■?■?■?S2?■??■?■?■?■?■?■??_?■?_?
【参考文献】:
期刊论文
[1]基于方形邻域和裁剪因子的离群点检测方法[J]. 涂晓敏,石鸿雁. 小型微型计算机系统. 2019(01)
[2]相关子空间中的局部离群数据挖掘算法研究[J]. 李永红,张继福,荀亚玲. 小型微型计算机系统. 2015(03)
[3]基于自适应的高对比性子空间的高维离群点检测[J]. 赵保同,薛安荣,董国宾. 计算机应用研究. 2013(10)
[4]基于边界和距离的离群点检测[J]. 江峰,杜军威,眭跃飞,曹存根. 电子学报. 2010(03)
[5]基于无指导离群点检测的网络入侵检测技术[J]. 黄俊,韩玲莉,陈光平. 小型微型计算机系统. 2007(11)
本文编号:2954491
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2954491.html