基于哈希映射和隔离原理的异常检测方法研究
发布时间:2022-01-16 11:05
互联网技术的发展促使人们在机器学习和数据挖掘领域中不断提高对数据的要求,同时对数据中的异常点检测的研究也更加深入。目前,异常检测方法主要根据不同的检测模型来分,通常可以分为基于统计、距离、密度、子空间和集成学习的这几种异常点检测方法。本文综合上述几种异常检测方法的优缺点,提出两种基于隔离思想的异常检测方法。针对孤立森林面对高维、海量、属性之间相关性低的大数据集中全局异常检测精度低的问题,本文提出一种基于精确欧式局部敏感哈希和隔离原理的异常检测方法。首先,该方法利用精确欧式局部敏感哈希对原始数据集进行随机哈希函数簇的操作,以达到映射降维的目的。随后利用数据之间距离关系,进行主次哈希函数计算,即对映射数据集进行哈希桶计算,使得原始数据空间中分布较为集中的数据点经过分桶后出现在同一个桶内的概率较大,得到分桶后对应的降维子数据集。然后,再使用孤立森林对降维子数据集进行异常数据检测。最后,孤立森林构建孤立树时,对于如何选择最优分割属性和分割值的问题,本文提出了一种均值优化策略。实验结果证明,与孤立森林因随机性生成的孤立树相比,本文所提方法只需要使用较少的孤立树来构成森林,能有效地提高在高维海量低...
【文章来源】:重庆邮电大学重庆市
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
全局异常点和局部异常点
重庆邮电大学硕士学位论文第2章异常检测的相关研究工作16图2.2ROC曲线为了比较不同分类器的分类精度,研究学者们引入了ROC曲线。如何判断多个分类器的性能,可以借鉴ROC曲线的分布位置来了解哪种分类器的性能更好。若分类器的ROC曲线与其它的分类器的ROC曲线相比,该分类器的ROC曲线都位于上方,且曲线之间没有交叉,那么该分类器的性能就是最好的。若曲线有交叉,那么就不能只根据位置来判断该分类器性能的好坏。此时,利用曲线下方与坐标轴围成的面积大小(AreaUnderCurve,AUC)[22]来判断性能。若AUC越大,分类器的准确度就会越高,分类器的性能就会越好。因此可以通过比较AUC值的大小来对比多个分类器的性能。若AUC值在0.5到1之间,则说明分类器能有效检测出异常点,若AUC小于0.5,则说明分类器检测结果并不是很好。2.4本章小结本章就异常点的相关概念和异常点的产生原因做了详细阐述,然后重点介绍了几种异常检测方法,对每一种方法的原理、适用场景、在处理数据方面的优势,以及存在的局限性进行了深入理解。最后对异常检测模型性能的几种评价方法进行了简单介绍。这一章节是第三章和第四章算法改进和实验分析的理论基矗
重庆邮电大学硕士学位论文第3章基于精确欧式局部敏感哈希和隔离原理的异常检测方法18异常数据与正常数据相比其数量较少,而且在特征上也不尽相同。因此,在特征空间中,异常点是那些分布稀疏,远离密集簇的点。孤立森林算法的划分原理是随机不断选择特征、样本点作为分割属性、分割值来划分数据集,直到建树达到限制高度或所有数据点都被分离开后,从而构建完成一棵孤立树。如图3.1所示,孤立森林使用随机超平面将数据空间划分开,每划分一次得到两个子空间,如此往复,将每个子空间内的点划分出来,直到每个子空间内的数据点只有一个。由于正常数据的密度较高,所以正常数据需要被划分很多次才能被分开,如图3.1中O2,O3,这两个点被划分3次。而异常数据相较更为稀疏,所以异常数据被划分次数较少,如图3.1中O1被划分1次。因为是随机选取数据点,在某些复杂的数据分布中,正常点的划分次数也可能少于异常点,因此,为了保证划分结果的正确性,对数据的划分次数求取均值,那么异常数据的划分次数就少于了正常数据的划分次数。(a)正常点O2、O3的划分情况(b)异常点O1的划分情况图3.1正常点与异常点的划分情况对比图3.1.1孤立树的构造孤立森林由多棵孤立树(isolationTree,iTree)组合而成。如图3.2所示,孤立树属于二叉树的一种。下面对孤立树的构建过程给出了定义。1.孤立树(iTree):给定n个样本数据12{,,...,}nXxxx,维度为d。为了构建一棵孤立树,从数据集中随机选择一个特征q作为分割属性,随机选择一个数据点
【参考文献】:
期刊论文
[1]基于PCA的哈希图像检索算法[J]. 马绍覃,张鸿. 计算机工程与设计. 2020(02)
[2]The UCR Time Series Archive[J]. Hoang Anh Dau,Anthony Bagnall,Kaveh Kamgar,Chin-Chia Michael Yeh,Yan Zhu,Shaghayegh Gharghabi,Chotirat Ann Ratanamahatana,Eamonn Keogh. IEEE/CAA Journal of Automatica Sinica. 2019(06)
[3]基于改进距离和的异常点检测算法研究[J]. 李春生,于澍,刘小刚. 计算机技术与发展. 2019(03)
[4]基于瀑布型混合技术的异常检测算法[J]. 王茹雪,张丽翠,刘姝岐. 吉林大学学报(信息科学版). 2017(05)
[5]基于Isolation Forest的并行化异常探测设计[J]. 侯泳旭,段磊,秦江龙,秦攀,唐常杰. 计算机工程与科学. 2017(02)
[6]基于密度的异常数据检测算法GSWCLOF[J]. 李少波,孟伟,璩晶磊. 计算机工程与应用. 2016(19)
[7]基于局部敏感哈希算法的图像高维数据索引技术的研究[J]. 曹玉东,刘福英,蔡希彪. 辽宁工业大学学报(自然科学版). 2013(01)
[8]支持向量机回归方法在切削参数预测中的应用[J]. 胡贤金. 工具技术. 2012(10)
[9]一种基于精确欧氏位置敏感哈希的目标检索方法[J]. 赵永威,李弼程,高毫林. 应用科学学报. 2012(04)
[10]核函数的选择研究综述[J]. 汪廷华,陈峻婷. 计算机工程与设计. 2012(03)
博士论文
[1]基于哈希技术的图像检索研究[D]. 高毫林.解放军信息工程大学 2014
硕士论文
[1]多维数据异常检测方法的研究与应用[D]. 李倩.江苏科技大学 2019
[2]基于Spark的孤立森林算法并行化研究[D]. 刘高.华中科技大学 2019
[3]基于深度学习和集成学习的银行卡交易反欺诈技术研究[D]. 窦路路.东华大学 2018
[4]基于机器学习的入侵检测算法研究[D]. 王淇艺.北京邮电大学 2018
[5]基于用户行为特征的E2LSH动态权重混合推荐算法及应用[D]. 刘沛文.武汉大学 2017
[6]基于邻域离散度和隔离树的异常点检测算法研究[D]. 沈琰辉.浙江师范大学 2016
[7]基于K-means聚类的RCNA识别算法[D]. 赵小佳.西安电子科技大学 2015
[8]基于弱随机映射的目标检索技术研究[D]. 赵永威.解放军信息工程大学 2012
[9]用于异常检测的进化非选择算法性能分析[D]. 许宝亮.中国科学技术大学 2010
[10]贝叶斯网络诱导的内积空间与核函数[D]. 白旭英.西安电子科技大学 2009
本文编号:3592534
【文章来源】:重庆邮电大学重庆市
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
全局异常点和局部异常点
重庆邮电大学硕士学位论文第2章异常检测的相关研究工作16图2.2ROC曲线为了比较不同分类器的分类精度,研究学者们引入了ROC曲线。如何判断多个分类器的性能,可以借鉴ROC曲线的分布位置来了解哪种分类器的性能更好。若分类器的ROC曲线与其它的分类器的ROC曲线相比,该分类器的ROC曲线都位于上方,且曲线之间没有交叉,那么该分类器的性能就是最好的。若曲线有交叉,那么就不能只根据位置来判断该分类器性能的好坏。此时,利用曲线下方与坐标轴围成的面积大小(AreaUnderCurve,AUC)[22]来判断性能。若AUC越大,分类器的准确度就会越高,分类器的性能就会越好。因此可以通过比较AUC值的大小来对比多个分类器的性能。若AUC值在0.5到1之间,则说明分类器能有效检测出异常点,若AUC小于0.5,则说明分类器检测结果并不是很好。2.4本章小结本章就异常点的相关概念和异常点的产生原因做了详细阐述,然后重点介绍了几种异常检测方法,对每一种方法的原理、适用场景、在处理数据方面的优势,以及存在的局限性进行了深入理解。最后对异常检测模型性能的几种评价方法进行了简单介绍。这一章节是第三章和第四章算法改进和实验分析的理论基矗
重庆邮电大学硕士学位论文第3章基于精确欧式局部敏感哈希和隔离原理的异常检测方法18异常数据与正常数据相比其数量较少,而且在特征上也不尽相同。因此,在特征空间中,异常点是那些分布稀疏,远离密集簇的点。孤立森林算法的划分原理是随机不断选择特征、样本点作为分割属性、分割值来划分数据集,直到建树达到限制高度或所有数据点都被分离开后,从而构建完成一棵孤立树。如图3.1所示,孤立森林使用随机超平面将数据空间划分开,每划分一次得到两个子空间,如此往复,将每个子空间内的点划分出来,直到每个子空间内的数据点只有一个。由于正常数据的密度较高,所以正常数据需要被划分很多次才能被分开,如图3.1中O2,O3,这两个点被划分3次。而异常数据相较更为稀疏,所以异常数据被划分次数较少,如图3.1中O1被划分1次。因为是随机选取数据点,在某些复杂的数据分布中,正常点的划分次数也可能少于异常点,因此,为了保证划分结果的正确性,对数据的划分次数求取均值,那么异常数据的划分次数就少于了正常数据的划分次数。(a)正常点O2、O3的划分情况(b)异常点O1的划分情况图3.1正常点与异常点的划分情况对比图3.1.1孤立树的构造孤立森林由多棵孤立树(isolationTree,iTree)组合而成。如图3.2所示,孤立树属于二叉树的一种。下面对孤立树的构建过程给出了定义。1.孤立树(iTree):给定n个样本数据12{,,...,}nXxxx,维度为d。为了构建一棵孤立树,从数据集中随机选择一个特征q作为分割属性,随机选择一个数据点
【参考文献】:
期刊论文
[1]基于PCA的哈希图像检索算法[J]. 马绍覃,张鸿. 计算机工程与设计. 2020(02)
[2]The UCR Time Series Archive[J]. Hoang Anh Dau,Anthony Bagnall,Kaveh Kamgar,Chin-Chia Michael Yeh,Yan Zhu,Shaghayegh Gharghabi,Chotirat Ann Ratanamahatana,Eamonn Keogh. IEEE/CAA Journal of Automatica Sinica. 2019(06)
[3]基于改进距离和的异常点检测算法研究[J]. 李春生,于澍,刘小刚. 计算机技术与发展. 2019(03)
[4]基于瀑布型混合技术的异常检测算法[J]. 王茹雪,张丽翠,刘姝岐. 吉林大学学报(信息科学版). 2017(05)
[5]基于Isolation Forest的并行化异常探测设计[J]. 侯泳旭,段磊,秦江龙,秦攀,唐常杰. 计算机工程与科学. 2017(02)
[6]基于密度的异常数据检测算法GSWCLOF[J]. 李少波,孟伟,璩晶磊. 计算机工程与应用. 2016(19)
[7]基于局部敏感哈希算法的图像高维数据索引技术的研究[J]. 曹玉东,刘福英,蔡希彪. 辽宁工业大学学报(自然科学版). 2013(01)
[8]支持向量机回归方法在切削参数预测中的应用[J]. 胡贤金. 工具技术. 2012(10)
[9]一种基于精确欧氏位置敏感哈希的目标检索方法[J]. 赵永威,李弼程,高毫林. 应用科学学报. 2012(04)
[10]核函数的选择研究综述[J]. 汪廷华,陈峻婷. 计算机工程与设计. 2012(03)
博士论文
[1]基于哈希技术的图像检索研究[D]. 高毫林.解放军信息工程大学 2014
硕士论文
[1]多维数据异常检测方法的研究与应用[D]. 李倩.江苏科技大学 2019
[2]基于Spark的孤立森林算法并行化研究[D]. 刘高.华中科技大学 2019
[3]基于深度学习和集成学习的银行卡交易反欺诈技术研究[D]. 窦路路.东华大学 2018
[4]基于机器学习的入侵检测算法研究[D]. 王淇艺.北京邮电大学 2018
[5]基于用户行为特征的E2LSH动态权重混合推荐算法及应用[D]. 刘沛文.武汉大学 2017
[6]基于邻域离散度和隔离树的异常点检测算法研究[D]. 沈琰辉.浙江师范大学 2016
[7]基于K-means聚类的RCNA识别算法[D]. 赵小佳.西安电子科技大学 2015
[8]基于弱随机映射的目标检索技术研究[D]. 赵永威.解放军信息工程大学 2012
[9]用于异常检测的进化非选择算法性能分析[D]. 许宝亮.中国科学技术大学 2010
[10]贝叶斯网络诱导的内积空间与核函数[D]. 白旭英.西安电子科技大学 2009
本文编号:3592534
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3592534.html
最近更新
教材专著