基于插值思想的高维稀疏数据离群点检测方法研究
发布时间:2021-09-16 23:36
离群点是指一个数据集中特征明显不同于其他数据的对象,其中往往蕴藏了一些重要的信息,在金融交易、入侵检测等领域具有广泛的应用。由于高维数据往往具有稀疏性,使得低维数据中表现良好的离群点检测方法在高维数据空间中效果受到很大影响。因此,本文借鉴插值思想,探讨了基于聚类的高维稀疏数据的离群点检测方法。(1)提出了一种基于插值的聚类算法IB k-means(Interpolation Based k-means clustering)。针对高维数据的稀疏性,通过样本遗传变异,对原始稀疏数据集进行插值操作,提高聚类效果,可有效支撑基于聚类的高维稀疏数据离群点检测。(2)提出了一种基于插值的高维稀疏离群点检测方法ODGA算法(Outlier Detection based Genetic Algorithm),应用IB k-means算法对高维数据样本进行聚类,然后判定距离质心最远的N个点为离群点。对比基于传统k-means聚类的离群点检测方法以及几种典型的基于改进k-means聚类的离群点检测方法,ODGA方法能够损失更少的正常点,准确区分正常和异常点,提高了检测准确率和精确率。(3)提出了一种基...
【文章来源】:西北师范大学甘肃省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
Canopy预分类
本文编号:3397502
【文章来源】:西北师范大学甘肃省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
Canopy预分类
本文编号:3397502
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3397502.html