高效且支持多查询的离群点检测方法研究
发布时间:2023-02-09 14:35
随着互联网技术的进步,数据挖掘这一学术领域正在日益发展,离群点检测作为其重要组成部分之一,目的是找出异常的数据信息。迄今为止,离群点检测的相关技术已经在网络安全、社会分析等诸多领域中被应用。在离群点检测系统中,随着上层业务的不断拓展,系统在同一时间段内所接收到的查询请求不断增多,而处理的时效性要求也不断提高,这也对离群点检测算法的性能提出更高的要求。而现有的离群点检测算法绝大多数都是面向单个查询,这使得系统在短时间内处理大量查询请求时的性能不佳,降低了用户的使用体验感。因此,本文主要针对离群点检测的多查询问题展开了相关研究,主要贡献点如下:(1)提出了一种面向单查询的高效离群点检测算法——RODASQ(R-tree Outlier Detection Algorithm-Single Query)。首先,该算法对传统的空间索引R树进行扩展,即为R树中的每个结点添加了密度属性,并提出了一种估算数据点离群度的新型方法。然后将离群点在空间中的存在特性与扩展后的R树索引相结合,通过从R树中选出较小密度的结点,并优先计算该结点内离群度较大的数据点,能够快速地在初始时确定一个...
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与研究意义
1.2 相关研究工作
1.2.1 面向单查询的离群点检测
1.2.2 面向多查询的离群点检测
1.3 主要贡献
1.4 论文各章节安排
2 相关理论及技术介绍
2.1 基于距离的离群点相关定义
2.2 基于距离的离群点检测相关算法
2.2.1 基于嵌套循环的离群点检测算法
2.2.2 基于索引的离群点检测算法
2.2.3 基于单元的离群点检测算法
2.3 阈值
2.4 本章小结
3 面向单查询的离群点检测算法
3.1 基于R树的基准处理框架
3.2 面向单查询的离群点检测算法描述
3.2.1 R树的扩展
3.2.2 结点选择方法
3.2.3 数据点选择方法
3.2.4 面向单查询的算法描述
3.3 本章小结
4 面向多查询的离群点检测算法
4.1 面向多查询的离群点检测算法描述
4.1.1 查询任务分组
4.1.2 组内多离群点检测的算法描述
4.2 本章小结
5 实验对比分析
5.1 实验方法及环境
5.2 真实数据集中的实验结果
5.3 人工合成数据集中的实验结果
5.3.1 面向单查询的算法性能对比
5.3.2 面向多查询的算法性能对比
5.4 本章小结
结论
参考文献
致谢
作者简历及攻读硕士学位期间的科研成果
本文编号:3738899
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与研究意义
1.2 相关研究工作
1.2.1 面向单查询的离群点检测
1.2.2 面向多查询的离群点检测
1.3 主要贡献
1.4 论文各章节安排
2 相关理论及技术介绍
2.1 基于距离的离群点相关定义
2.2 基于距离的离群点检测相关算法
2.2.1 基于嵌套循环的离群点检测算法
2.2.2 基于索引的离群点检测算法
2.2.3 基于单元的离群点检测算法
2.3 阈值
2.4 本章小结
3 面向单查询的离群点检测算法
3.1 基于R树的基准处理框架
3.2 面向单查询的离群点检测算法描述
3.2.1 R树的扩展
3.2.2 结点选择方法
3.2.3 数据点选择方法
3.2.4 面向单查询的算法描述
3.3 本章小结
4 面向多查询的离群点检测算法
4.1 面向多查询的离群点检测算法描述
4.1.1 查询任务分组
4.1.2 组内多离群点检测的算法描述
4.2 本章小结
5 实验对比分析
5.1 实验方法及环境
5.2 真实数据集中的实验结果
5.3 人工合成数据集中的实验结果
5.3.1 面向单查询的算法性能对比
5.3.2 面向多查询的算法性能对比
5.4 本章小结
结论
参考文献
致谢
作者简历及攻读硕士学位期间的科研成果
本文编号:3738899
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3738899.html
最近更新
教材专著