离群点检测及其参数优化算法研究
发布时间:2021-05-31 17:05
离群点检测是数据挖掘中极其重要的技术,大到国家安全,小到个人健康,从网络入侵检测到医保欺诈检测,只要目标是“不寻常”数据,就可以应用离群点检测技术来代替人工方式。尽管已有的研究在这些领域取得了不少的成果,但仍存在参数依赖、检测准确率低、多对象时间序列数据离群点检测困难等问题。针对这些问题,本文在离群点检测技术的参数优化、多场景算法检测准确率提高和算法结果评估指标等方面进行了深入研究和探索。本文主要的研究工作和创新点包括:(1)针对参数k(邻域大小)的优化问题,本文提出了一种基于互近邻图的参数k搜索算法。该算法定义了一种描述互近邻图稳定状态的方法,通过搜索互邻图的稳定状态来选择邻近性算法的参数k。实验结果表明,该算法相较于其他参数k选择算法在AUC检测指标上取得了更好的效果。(2)针对离群点种类多、模式复杂且缺少标签的场景,本文提出了一种基于主动自编码(Active Autoencoder,AAE)的离群点检测算法,该算法通过一种基于影响力的主动学习方式和一种新的膨胀收缩算子,以提高自编码网络在离群点稀疏场景下的检测能力。实验结果表明,所提出的方法与其他方法相比,能更准确地检测出图像数据...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:116 页
【学位级别】:博士
【部分图文】:
HT_AUC与传统评价方法的结果对比
LF_AUC与传统评价方法的结果对比
离群点检测一般使用外部度量来进行评价,即使用真实的标签来进行评价度量。现有的离群点检测算法评价指标主要分为三类,如图1-2所示。第一种是阈值法,在离群得分的基础上,利用所设置的参数来划分预测的离群点集。将预测的离群点集与真实的离群点标签作对比,用检测率,精确度等统计值来评价算法效果。第二种是曲线法,将阈值法的全参数下的指标绘制连续的曲线,曲线越“凸”,表示算法效果越好。第三种是整合法,用曲线下的面积来衡量算法效果,值越大,表示算法的效果越好。近年来,一些改进的方法也被提出来了。例如Ethan Zhang等[56]提出了一种带标准化的精确度的均值,以包含离群度排位信息。但是,这种方法在没有调整的时候会产生错误[57]。Klement等[58]针对受试者工作特征(Receiver Operating Characteristic,ROC)曲线丢失离群得分信息的问题,提出了一种平滑的ROC曲线,通过对ROC曲线加入平滑分量以保留离群得分信息,对评价算法的差异更具有一致性。此外,Marques等[59]提出了一种不需要真实标签的内部评价方式,这种方式基于离群得分的相对评价,但是计算复杂度太高。
【参考文献】:
期刊论文
[1]离群点检测算法的评价指标[J]. 宁进,陈雷霆,罗子娟,周川,曾慧茹. 计算机应用. 2020(09)
[2]基于自编码器和隐马尔可夫模型的时间序列异常检测方法[J]. 霍纬纲,王慧芳. 计算机应用. 2020(05)
[3]基于多模态时间序列建模的机器人安全监控[J]. 吴鸿敏,张国英,管贻生,JUAN Rojas. 哈尔滨工业大学学报. 2020(01)
[4]多链路即时通信中交互数据异常点检测仿真[J]. 赵磊. 计算机仿真. 2019(11)
[5]采用压缩感知的流程工业异常监测数据检验与修复方法[J]. 徐光南,高智勇,梁艳杰,高建民,刘倩倩,程亚辉. 西安交通大学学报. 2020(02)
[6]大数据环境下基于小波神经网络和ARMA模型的流量异常检测[J]. 陈易平,俞龙,谌颃. 重庆理工大学学报(自然科学). 2019(10)
[7]基于误差检测的杂波点迹过滤技术[J]. 郑浩,王伟,萨出拉. 指挥信息系统与技术. 2019(04)
[8]模型聚合解聚的智能触发机制[J]. 宁进,陈雷霆,周川,张磊. 计算机应用. 2019(06)
[9]近岸海上安保快艇拦截任务分配模型[J]. 王珂,惠新成,张遥. 指挥信息系统与技术. 2018(01)
[10]基于多维时间序列分析的网络异常检测[J]. 陈兴蜀,江天宇,曾雪梅,尹学渊,邵国林. 工程科学与技术. 2017(01)
本文编号:3208628
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:116 页
【学位级别】:博士
【部分图文】:
HT_AUC与传统评价方法的结果对比
LF_AUC与传统评价方法的结果对比
离群点检测一般使用外部度量来进行评价,即使用真实的标签来进行评价度量。现有的离群点检测算法评价指标主要分为三类,如图1-2所示。第一种是阈值法,在离群得分的基础上,利用所设置的参数来划分预测的离群点集。将预测的离群点集与真实的离群点标签作对比,用检测率,精确度等统计值来评价算法效果。第二种是曲线法,将阈值法的全参数下的指标绘制连续的曲线,曲线越“凸”,表示算法效果越好。第三种是整合法,用曲线下的面积来衡量算法效果,值越大,表示算法的效果越好。近年来,一些改进的方法也被提出来了。例如Ethan Zhang等[56]提出了一种带标准化的精确度的均值,以包含离群度排位信息。但是,这种方法在没有调整的时候会产生错误[57]。Klement等[58]针对受试者工作特征(Receiver Operating Characteristic,ROC)曲线丢失离群得分信息的问题,提出了一种平滑的ROC曲线,通过对ROC曲线加入平滑分量以保留离群得分信息,对评价算法的差异更具有一致性。此外,Marques等[59]提出了一种不需要真实标签的内部评价方式,这种方式基于离群得分的相对评价,但是计算复杂度太高。
【参考文献】:
期刊论文
[1]离群点检测算法的评价指标[J]. 宁进,陈雷霆,罗子娟,周川,曾慧茹. 计算机应用. 2020(09)
[2]基于自编码器和隐马尔可夫模型的时间序列异常检测方法[J]. 霍纬纲,王慧芳. 计算机应用. 2020(05)
[3]基于多模态时间序列建模的机器人安全监控[J]. 吴鸿敏,张国英,管贻生,JUAN Rojas. 哈尔滨工业大学学报. 2020(01)
[4]多链路即时通信中交互数据异常点检测仿真[J]. 赵磊. 计算机仿真. 2019(11)
[5]采用压缩感知的流程工业异常监测数据检验与修复方法[J]. 徐光南,高智勇,梁艳杰,高建民,刘倩倩,程亚辉. 西安交通大学学报. 2020(02)
[6]大数据环境下基于小波神经网络和ARMA模型的流量异常检测[J]. 陈易平,俞龙,谌颃. 重庆理工大学学报(自然科学). 2019(10)
[7]基于误差检测的杂波点迹过滤技术[J]. 郑浩,王伟,萨出拉. 指挥信息系统与技术. 2019(04)
[8]模型聚合解聚的智能触发机制[J]. 宁进,陈雷霆,周川,张磊. 计算机应用. 2019(06)
[9]近岸海上安保快艇拦截任务分配模型[J]. 王珂,惠新成,张遥. 指挥信息系统与技术. 2018(01)
[10]基于多维时间序列分析的网络异常检测[J]. 陈兴蜀,江天宇,曾雪梅,尹学渊,邵国林. 工程科学与技术. 2017(01)
本文编号:3208628
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3208628.html