多维数据中基于密度的离群点检测算法研究
发布时间:2021-05-10 22:58
离群点检测是数据挖掘领域的热点问题之一,在许多应用场景中都扮演着重要角色,如医疗诊断、道路监测、信用卡欺诈、网络入侵和环境监测等领域。现有离群点检测方法主要应用于低维数据场景,但随着维度的不断增长,传统离群点检测方法受到维度的影响,无法有效检测离群点,同时算法效率降低,无法满足用户日益增长的需求。为了检测出多维数据中的离群点,本文对传统离群点检测算法进行了对比分析和总结,选择基于密度的定义,并提出了一种针对多维数据的离群点检测算法DODMD。为了解决多维空间数据稀疏的问题,文中采用空间填充曲线将数据从多维空间映射到低维空间,并根据映射后的数据构建ZH-tree索引结构,以有效管理多维数据。ZH-tree有两个优点:1)其聚类属性可以有效的帮助搜索数据对象的邻居。2)其层次结构可以有效的进行空间剪枝,以过滤掉不可能是邻居的数据。在原有的ZH-tree基础上进行改进,引入微簇的概念,将每个叶子节点看作一个微簇,并以微簇为单位进行计算,达到批量过滤的目的。基于ZH-tree检测多维数据中的离群点,它包括两个阶段:1)在ZH-tree构建完成后,通过一个贪婪的方法保存离群值较大的点,并计算每个...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 本文主要工作及组织结构
1.3.1 主要工作
1.3.2 论文组织结构
1.4 本章小结
2 离群点检测相关知识
2.1 离群点概述
2.1.1 离群点的分类
2.1.2 离群点检测的应用场景
2.2 离群点检测方法
2.2.1 简单数据离群点检测方法
2.2.2 多维数据离群点检测方法
2.3 本章小结
3 多维数据中基于密度的离群点检测算法
3.1 基于LOF的离群点检测算法
3.2 基于空间填充曲线的索引构建
3.2.1 Z曲线
3.2.2 ZH-tree索引构建算法
3.3 基于ZH-tree的kNN搜索算法
3.4 DODMD过滤细化算法
3.4.1 问题描述及相关概念
3.4.2 获得LOF_(min)
3.4.3 过滤细化算法
3.5 本章小结
4 多维数据中基于密度的离群点检测系统
4.1 标准化模块
4.2 预处理模块
4.3 计算处理模块
4.4 过滤模块
4.5 系统实现
4.5.1 预处理
4.5.2 查询处理
4.6 本章小结
5 实验结果与分析
5.1 真实数据集上的实验结果分析
5.1.1 数据集描述
5.1.2 AUC性能分析
5.1.3 ROC曲线分析
5.2 人工合成数据集上的实验结果分析
5.2.1 数据集描述
5.2.2 时间效率分析
5.3 本章小结
6 总结和展望
6.1 工作总结
6.2 工作展望
参考文献
致谢
本文编号:3180215
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 本文主要工作及组织结构
1.3.1 主要工作
1.3.2 论文组织结构
1.4 本章小结
2 离群点检测相关知识
2.1 离群点概述
2.1.1 离群点的分类
2.1.2 离群点检测的应用场景
2.2 离群点检测方法
2.2.1 简单数据离群点检测方法
2.2.2 多维数据离群点检测方法
2.3 本章小结
3 多维数据中基于密度的离群点检测算法
3.1 基于LOF的离群点检测算法
3.2 基于空间填充曲线的索引构建
3.2.1 Z曲线
3.2.2 ZH-tree索引构建算法
3.3 基于ZH-tree的kNN搜索算法
3.4 DODMD过滤细化算法
3.4.1 问题描述及相关概念
3.4.2 获得LOF_(min)
3.4.3 过滤细化算法
3.5 本章小结
4 多维数据中基于密度的离群点检测系统
4.1 标准化模块
4.2 预处理模块
4.3 计算处理模块
4.4 过滤模块
4.5 系统实现
4.5.1 预处理
4.5.2 查询处理
4.6 本章小结
5 实验结果与分析
5.1 真实数据集上的实验结果分析
5.1.1 数据集描述
5.1.2 AUC性能分析
5.1.3 ROC曲线分析
5.2 人工合成数据集上的实验结果分析
5.2.1 数据集描述
5.2.2 时间效率分析
5.3 本章小结
6 总结和展望
6.1 工作总结
6.2 工作展望
参考文献
致谢
本文编号:3180215
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3180215.html
最近更新
教材专著