多维数据中基于密度的离群点检测算法研究

发布时间:2021-05-10 22:58
  离群点检测是数据挖掘领域的热点问题之一,在许多应用场景中都扮演着重要角色,如医疗诊断、道路监测、信用卡欺诈、网络入侵和环境监测等领域。现有离群点检测方法主要应用于低维数据场景,但随着维度的不断增长,传统离群点检测方法受到维度的影响,无法有效检测离群点,同时算法效率降低,无法满足用户日益增长的需求。为了检测出多维数据中的离群点,本文对传统离群点检测算法进行了对比分析和总结,选择基于密度的定义,并提出了一种针对多维数据的离群点检测算法DODMD。为了解决多维空间数据稀疏的问题,文中采用空间填充曲线将数据从多维空间映射到低维空间,并根据映射后的数据构建ZH-tree索引结构,以有效管理多维数据。ZH-tree有两个优点:1)其聚类属性可以有效的帮助搜索数据对象的邻居。2)其层次结构可以有效的进行空间剪枝,以过滤掉不可能是邻居的数据。在原有的ZH-tree基础上进行改进,引入微簇的概念,将每个叶子节点看作一个微簇,并以微簇为单位进行计算,达到批量过滤的目的。基于ZH-tree检测多维数据中的离群点,它包括两个阶段:1)在ZH-tree构建完成后,通过一个贪婪的方法保存离群值较大的点,并计算每个... 

【文章来源】:大连海事大学辽宁省 211工程院校

【文章页数】:66 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文主要工作及组织结构
        1.3.1 主要工作
        1.3.2 论文组织结构
    1.4 本章小结
2 离群点检测相关知识
    2.1 离群点概述
        2.1.1 离群点的分类
        2.1.2 离群点检测的应用场景
    2.2 离群点检测方法
        2.2.1 简单数据离群点检测方法
        2.2.2 多维数据离群点检测方法
    2.3 本章小结
3 多维数据中基于密度的离群点检测算法
    3.1 基于LOF的离群点检测算法
    3.2 基于空间填充曲线的索引构建
        3.2.1 Z曲线
        3.2.2 ZH-tree索引构建算法
    3.3 基于ZH-tree的kNN搜索算法
    3.4 DODMD过滤细化算法
        3.4.1 问题描述及相关概念
        3.4.2 获得LOF_(min)
        3.4.3 过滤细化算法
    3.5 本章小结
4 多维数据中基于密度的离群点检测系统
    4.1 标准化模块
    4.2 预处理模块
    4.3 计算处理模块
    4.4 过滤模块
    4.5 系统实现
        4.5.1 预处理
        4.5.2 查询处理
    4.6 本章小结
5 实验结果与分析
    5.1 真实数据集上的实验结果分析
        5.1.1 数据集描述
        5.1.2 AUC性能分析
        5.1.3 ROC曲线分析
    5.2 人工合成数据集上的实验结果分析
        5.2.1 数据集描述
        5.2.2 时间效率分析
    5.3 本章小结
6 总结和展望
    6.1 工作总结
    6.2 工作展望
参考文献
致谢



本文编号:3180215

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3180215.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9fba3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com