基于密度和距离的离群点检测方法研究与应用
发布时间:2022-01-19 17:08
离群点检测是数据挖掘中一个重要的研究领域,它的主要任务是找出那些与大部分对象产生机制不相同的对象。目前,离群点检测方法已经得到了深入的研究,但是使用单一离群因子的离群点检测方法已经难以提升算法的精度。因此,使用多条件混合参数组成离群因子的离群点检测方法已经成为离群点检测分析领域的一个重要的研究方向。本论文详细的介绍了离群点检测的概念,主要包括:离群点的形成机理,定义以及分类。在分析了已有的离群点检测方法的优缺点之后,本文提出了两种新的离群点检测算法。(1)提出了一种基于密度和距离双参数的离群点检测算法——DDPOS算法。通过分析发现使用单一的密度离群因子或单一的距离离群因子的离群点检测算法很难再提升检测的精度,并且难以消除边界点的干扰。因此,DDPOS通过计算对象的局部密度来观察对象之间的关联度;再根据局部密度来计算对象之间的全局距离,进而评估对象的平均偏离程度,同时消除边界点的干扰;最后将二者组合成新的离群因子来判断离群点。DDPOS综合了近邻算法框架完成离群点检测。理论分析与实验结果表明,DDPOS算法可以有效地进行离群点检测。(2)提出了一种基于划分候选集的离群点检测算法——CP...
【文章来源】:西安理工大学陕西省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
离群点示意图
图 2-2 标准正态分布Fig.2-2 Standard Normal Distribution图 2-2 所示,标准正态分布是以均值为 0,标准差为 1 的正态分布,记为态分布又称为高斯正态分布。这种分布当数据量很大时,估计效果很好,从两端的值的概率将远远的小于中间的部分的值。从统计学中的大数定律可情况下使用正态分布可以得到很好的拟合。于统计学习方法的离群点检测使用起来非常的方便,只需要找对符合数据集型就能够得到想要的结果。但是,这种方法存在着以下几个问题: 对于数据集的知识背景的了解有很高的要求,虽然存在许多类型的数据集较常见的高斯模型,二项分布,卡方统计量等来描述[9][20][50]。但是在具体的着非标准的数据集,基于统计模型的方法通常是根据数据集的分布情况来选具体的真实数据集中很难做到,目前使用未知情况的真实数据集才是发展时也更加符合实际生活中的情况。所以模型的选择能够直接影响最终的检的数据集并不能适应于所选择的模型,反而会降低检测的精度。 对于数据的格式要求比较严苛,基于模型的方法都是使用一元属性的数据
西安理工大学工程硕士专业学位论文计与结果境和实验数据集进行的实验采用的设备是联想 ThinkPad PC 机,Intel i5 3210M器,8G 内存,操作系统是 Windows 7 旗舰版 64 位系统,算用 Eclipse IDE 编写。用人造合成数据集和真实数据集来测试。人造合成数据集中的真实数据集均来自 UCI 标准数据集或者按照一定规则经过数数据集数据集中包含两个高斯簇,它们的簇中心分别位于(0.5,0.6)和含了 100 个数据点,其中含有 4 个离群点。在图 3-1 中,我们布情况。
【参考文献】:
期刊论文
[1]基于高斯核函数改进的电力用户用电数据离群点检测方法[J]. 孙毅,李世豪,崔灿,李彬,陈宋宋,崔高颖. 电网技术. 2018(05)
[2]一种基于多标记的局部离群点检测算法[J]. 钱景辉,梁栋. 微电子学与计算机. 2017(10)
[3]基于高斯过程模型的异常检测算法[J]. 于冰洁,夏战国,王久龙. 计算机工程与设计. 2016(04)
[4]NLOF:一种新的基于密度的局部离群点检测算法[J]. 王敬华,赵新想,张国燕,刘建银. 计算机科学. 2013(08)
本文编号:3597244
【文章来源】:西安理工大学陕西省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
离群点示意图
图 2-2 标准正态分布Fig.2-2 Standard Normal Distribution图 2-2 所示,标准正态分布是以均值为 0,标准差为 1 的正态分布,记为态分布又称为高斯正态分布。这种分布当数据量很大时,估计效果很好,从两端的值的概率将远远的小于中间的部分的值。从统计学中的大数定律可情况下使用正态分布可以得到很好的拟合。于统计学习方法的离群点检测使用起来非常的方便,只需要找对符合数据集型就能够得到想要的结果。但是,这种方法存在着以下几个问题: 对于数据集的知识背景的了解有很高的要求,虽然存在许多类型的数据集较常见的高斯模型,二项分布,卡方统计量等来描述[9][20][50]。但是在具体的着非标准的数据集,基于统计模型的方法通常是根据数据集的分布情况来选具体的真实数据集中很难做到,目前使用未知情况的真实数据集才是发展时也更加符合实际生活中的情况。所以模型的选择能够直接影响最终的检的数据集并不能适应于所选择的模型,反而会降低检测的精度。 对于数据的格式要求比较严苛,基于模型的方法都是使用一元属性的数据
西安理工大学工程硕士专业学位论文计与结果境和实验数据集进行的实验采用的设备是联想 ThinkPad PC 机,Intel i5 3210M器,8G 内存,操作系统是 Windows 7 旗舰版 64 位系统,算用 Eclipse IDE 编写。用人造合成数据集和真实数据集来测试。人造合成数据集中的真实数据集均来自 UCI 标准数据集或者按照一定规则经过数数据集数据集中包含两个高斯簇,它们的簇中心分别位于(0.5,0.6)和含了 100 个数据点,其中含有 4 个离群点。在图 3-1 中,我们布情况。
【参考文献】:
期刊论文
[1]基于高斯核函数改进的电力用户用电数据离群点检测方法[J]. 孙毅,李世豪,崔灿,李彬,陈宋宋,崔高颖. 电网技术. 2018(05)
[2]一种基于多标记的局部离群点检测算法[J]. 钱景辉,梁栋. 微电子学与计算机. 2017(10)
[3]基于高斯过程模型的异常检测算法[J]. 于冰洁,夏战国,王久龙. 计算机工程与设计. 2016(04)
[4]NLOF:一种新的基于密度的局部离群点检测算法[J]. 王敬华,赵新想,张国燕,刘建银. 计算机科学. 2013(08)
本文编号:3597244
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3597244.html