基于多种支撑点的度量空间离群检测算法
本文选题:离群检测 + 度量空间 ; 参考:《计算机学报》2017年12期
【摘要】:大数据的价值实现,归根到底还是依赖于数据挖掘技术.而在很多领域中,海量数据的非常规模式往往更具分析价值.离群检测,也叫异常检测,是用于挖掘海量数据中非常规模式的一项关键技术,广泛应用于网络入侵检测、公共卫生、医疗监控等领域.基于索引的离群检测算法通常具有较高的检测速度,然而现有的大多数基于索引的检测算法并非完全基于距离,导致通用性降低.较高的抽象能力使得度量空间具有比多维空间更广泛的适用范围,在其基础上设计的算法具有更高的通用性.而最新的度量空间基于索引的离群检测算法iORCA算法通过随机选取支撑点,基于数据到单支撑点的距离建立索引,并应用终止规则(Stopping rule)以期提前结束离群检测并得到正确的结果,多数情况下该机制起到加快检测速度的重要作用.然而iORCA算法未提供支撑点选取算法导致检测结果不稳定,且未能充分利用距离三角不等性减少距离计算次数.针对这些问题,文中指出基于距离的离群点定义应结合使用完全基于距离的离群检测算法,以确保算法的通用性,由此提出了度量空间离群检测的概念.在此基础上明确了支撑点选取的两大目标,即边缘支撑点和密集支撑点,并提出基于多种支撑点的度量空间离群检测算法VPOD.考虑到两个支撑点选取目标难以同时达到,VPOD算法分别予以选取,在近似的密集区域选取支撑点,即密集支撑点,对应使用终止规则,然后用FFT(Farthest-First Traversal)算法另选取若干支撑点,即边缘支撑点,与数据集计算距离而形成支撑点空间,利用距离三角不等性,使距离计算次数显著减少,从而提高检测速度.实验表明该算法能在可接受的时间范围内建立索引,并能高效检测离群点,加速比达2.05,最高达3.54,距离计算次数平均减少51.14%,最高达89.46%,同时保持对多种常见的基于距离的离群点定义的兼容.
[Abstract]:Big data's value realization, in the final analysis still depends on the data mining technology. In many fields, unconventional patterns of massive data are often more analytical. Outlier detection, also called anomaly detection, is a key technology used to mine irregular patterns of massive data. It is widely used in network intrusion detection, public health, medical monitoring and other fields. Indexes based outlier detection algorithms usually have a high detection speed, but most of the existing indexing based detection algorithms are not completely based on distance, which leads to the reduction of generality. Because of its high abstract ability, the metric space has a wider range of applications than the multidimensional space, and the algorithm designed on the basis of it has a higher universality. The most recent outlier detection algorithm based on index in metric space, iORCA algorithm, establishes index based on the distance from data to single support point by randomly selecting support points, and applies termination rule to stop detection in order to finish outlier detection in advance and get correct results. In most cases, this mechanism plays an important role in accelerating the detection speed. However, the iORCA algorithm does not provide the support point selection algorithm, which leads to the instability of the detection results, and does not make full use of the distance triangulation to reduce the number of distance calculations. Aiming at these problems, this paper points out that the definition of outlier based on distance should be combined with a completely distance-based outlier detection algorithm to ensure the generality of the algorithm, and the concept of metric spatial outlier detection is proposed. On this basis, two major targets of support point selection, namely edge support point and dense support point, are defined, and VPOD, a metric spatial outlier detection algorithm based on multiple support points, is proposed. Considering that it is difficult to select two support points at the same time, we select the support points in the approximate dense area, that is, the dense support points, and then use the termination rule, and then select several other support points using the FFT(Farthest-First training algorithm. That is, the edge support point forms the support point space by calculating the distance from the data set. By using the distance triangle inequality, the distance calculation times are significantly reduced, and the detection speed is improved. Experiments show that the algorithm can build index in acceptable time range, and can detect outliers efficiently. Accelerating Prida 2.05, with a maximum of 3.54, reduces the number of distance calculations by an average of 51.14 and reaches a maximum of 89.46, while maintaining compatibility with a variety of common distance-based outliers.
【作者单位】: 佛山科学技术学院数学与大数据学院;深圳大学计算机与软件学院广东省普及型高性能计算机重点实验室;南开大学化学学院;
【基金】:国家“八六三”高技术研究发展计划项目基金(2015AA015305) 国家自然科学基金委-广东联合项目(U1301252,U1501254) 广东省重点实验室建设情况考评项目(2017B030314073) 广东省自然科学基金(2015A030313636) 深圳市科技计划项目(CXZZ20140418182638764)资助~~
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 魏藜,宫学庆,钱卫宁,周傲英;高维空间中的离群点发现[J];软件学报;2002年02期
2 薛安荣;姚林;鞠时光;陈伟鹤;马汉达;;离群点挖掘方法综述[J];计算机科学;2008年11期
3 李存华;;l_∞度量意义下的离群点检测[J];淮海工学院学报(自然科学版);2008年02期
4 封海岳;薛安荣;;基于重叠模块度的社区离群点检测[J];计算机应用与软件;2013年05期
5 王柏钧,王力勤;《稳健回归与离群点检测》介绍[J];成都气象学院学报;1989年04期
6 黄添强;秦小麟;叶飞跃;;基于方形邻域的离群点查找新方法[J];控制与决策;2006年05期
7 熊君丽;;高维空间下基于密度的离群点探测算法实现[J];现代电子技术;2006年15期
8 黄添强;秦小麟;王钦敏;;空间离群点的模型与跳跃取样查找算法[J];中国图象图形学报;2006年09期
9 陈光平;叶东毅;;一种改进的离群点检测方法[J];福州大学学报(自然科学版);2007年03期
10 薛安荣;鞠时光;;基于空间约束的离群点挖掘[J];计算机科学;2007年06期
相关会议论文 前9条
1 张锋;常会友;;茫然第三方支持的隐私保持离群点探测协议[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 连凤娜;吴锦林;薛永生;;一种改进的基于距离的离群挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 梁雪琴;刘红生;代秀梅;周亚芬;;聚类离群点挖掘技术在内部审计信息化中的应用——一个来自商业银行信用卡审计的实例[A];全国内部审计理论研讨优秀论文集(2013)[C];2014年
4 于浩;王斌;肖刚;杨晓春;;基于距离的不确定离群点检测[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
5 许龙飞;熊君丽;段敏;;基于粗糙集的高维空间离群点发现算法研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
6 刘文远;李振平;王宝文;裴继辉;;一种多维数据的离群点检测算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
7 魏藜;钱卫宁;周傲英;;HOT:寻找高维空间中的离群点[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 周红福;钱卫宁;魏藜;周傲英;;EDOLOIS:高效准确的子空间局部离群点发现[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 魏藜;钱卫宁;周傲英;;SLOT:基于估计的高效子空间局部离群点发现[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
相关博士学位论文 前10条
1 刘露;异质信息网络中离群点检测方法研究[D];吉林大学;2017年
2 杨鹏;离群检测及其优化算法研究[D];重庆大学;2010年
3 林海;离群检测及离群释义空间查找算法研究[D];重庆大学;2012年
4 薛安荣;空间离群点挖掘技术的研究[D];江苏大学;2008年
5 杨茂林;离群检测算法研究[D];华中科技大学;2012年
6 雷大江;离群检测与离群释义算法研究[D];重庆大学;2012年
7 万家强;基于连通性的离群检测与聚类研究[D];重庆大学;2014年
8 唐向红;数据流离群点检测研究[D];华中科技大学;2010年
9 刘靖;复杂数据类型的离群检测方法研究[D];华南理工大学;2014年
10 汤俊;基于可疑金融交易识别的离群模式挖掘研究[D];武汉理工大学;2007年
相关硕士学位论文 前10条
1 韩红霞;基于距离离群点的分析与研究[D];江苏大学;2007年
2 黄馨玉;基于邻域重心变化的离群点检测算法研究[D];辽宁大学;2015年
3 程百球;基于EP模式的离群点发现[D];安庆师范学院;2015年
4 欧阳根平;Hadoop云平台下基于离群点挖掘的入侵检测技术研究[D];电子科技大学;2015年
5 邓璇;数据流挖掘关键技术研究与实现[D];电子科技大学;2015年
6 周莹莹;利用离群点检测改进协同过滤推荐算法[D];南京邮电大学;2015年
7 张友强;基于选择性集成学习的离群点检测研究[D];青岛科技大学;2016年
8 关皓文;基于离群点检测方法的医保异常发现[D];山东大学;2016年
9 朱杰;基于带时间约束频繁路径的离群轨迹检测[D];苏州大学;2016年
10 马菲;局部离群点检测算法的研究[D];淮北师范大学;2016年
,本文编号:1852120
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1852120.html