当前位置:主页 > 科技论文 > 软件论文 >

高维数据的离群点检测算法分析与研究

发布时间:2023-03-19 06:45
  离群点检测是数据挖掘的一个重要分支。过滤数据集中的噪声和挖掘数据集中的潜在的、有意义的信息,使得离群点检测具有重要的现实意义和广阔的应用前景。在信息技术和网络快速发展的时代,高维大数据的应用随处可见。在高维大数据应用场景下,对数据进行全维分析时,数据变得稀疏,真实的离群点被多维度的噪声影响所掩盖。面对高维数据,传统的离群点检测方法难以有效的检测数据中的离群点,并且算法的效率也会变低。因此,搜索与离群点相关的子空间和挖掘高维数据中的离群点,已成为高维离群点检测算法的研究热点。本文对已有的离群点检测方法进行了分析和讨论,并介绍了面向高维数据常用的解决方法。本文以高维大数据为背景,研究了两种离群点检测算法,主要工作如下:首先,本文提出了一种随机哈希分割森林的高维离群点检测算法,该算法利用局部敏感哈希算法和树结构。局部敏感哈希算法能够将相近的数据实例散列到同一个桶中。然后,根据数据实例所在桶中的实例个数来衡量该实例的异常性。与隔离森林的思想相似,本算法使用树结构来对数据集进行分割。在每一次划分数据过程中,都会随机的选择一个属性作为划分属性,在该属性上使用局部敏感哈希算法做哈希映射,在该属性上具...

【文章页数】:79 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
注释表
缩略词
第一章 绪论
    1.1 研究背景及意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 研究现状
    1.3 本文主要工作及组织结构
        1.3.1 主要工作
        1.3.2 组织结构
    1.4 本章小结
第二章 相关理论研究基础与技术应用分析
    2.1 离群点的定义
    2.2 离群点检测方法
        2.2.1 基于统计的离群点检测方法
        2.2.2 基于距离的离群点检测方法
        2.2.3 基于密度的离群点检测方法
        2.2.4 基于聚类的离群点检测方法
        2.2.5 基于深度的离群点检测算法
    2.3 高维离群点检测方法
        2.3.1 引言
        2.3.2 高维数据的挑战
        2.3.3 基于低维投影的离群点检测方法
        2.3.4 基于相关子空间的离群点检测方法
        2.3.5 基于集成的子空间离群点检测方法
    2.4 离群点检测的实际应用
    2.5 离群点检测算法的性能评价指标
        2.5.1 准确率 (Precision)
        2.5.2 召回率 (Recall)
        2.5.3 ROC曲线
        2.5.4 AUC
    2.6 本章小结
第三章 基于随机哈希分割森林的离群点检测算法
    3.1 引言
    3.2 问题描述
    3.3 局部敏感哈希算法
    3.4 算法设计
        3.4.1 算法思想
        3.4.2 算法描述
    3.5 实验设计及结果分析
        3.5.1 实验设计
        3.5.2 实验结果分析
    3.6 本章小结
第四章 基于顺序集成的相关子空间选择算法
    4.1 引言
    4.2 问题描述
    4.3 算法设计
        4.3.1 算法思想
        4.3.2 阈值函数
        4.3.3 稀疏回归函数
        4.3.4 算法描述
    4.4 实验设计及结果分析
        4.4.1 实验设计
        4.4.2 实验结果分析
    4.5 本章小结
第五章 总结和展望
    5.1 总结
    5.2 展望
参考文献
致谢
在学期间的研究成果及学术论文情况



本文编号:3764775

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3764775.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4d8c7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com