当前位置:主页 > 科技论文 > 软件论文 >

一种基于快速k-近邻的最小生成树离群检测方法

发布时间:2018-12-13 06:55
【摘要】:离群检测也称异常点检测,是数据挖掘领域很有意义的热点问题之一,在很多方面都有广泛应用,如入侵行为、欺诈行为、医学上疾病前期的征兆等.基于k-近邻的算法能够很好的运用到大数据集上,因此在基于距离和基于密度的离群检测技术方面得到广泛应用.然而k-近邻算法的时间复杂度为O(N~2),随着数据集规模的增加,时间开销大大增加.基于最小生成树的聚类算法在使用Prim或者Kruskal算法构建最小生成树时空间复杂度和时间复杂度均为O(N~2),聚类结果依赖于用户参数的选择,而且容易漏检稠密簇中的局部离群点.针对以上问题,融合基于密度和基于聚类方法的优势,提出一种新的离群检测方法.该方法具有以下优点:(1)计算k-近邻的时间复杂度为O(kN)(kN);(2)构建最小生成树的时间复杂度为O(NlogN);(3)自适应识别聚类数目;(4)能够检测出多种类型的离群数据.最后通过大量实验验证了文中所提的KDNS算法,FkNN算法和ADC算法的有效性.实验结果表明,相对于现有算法,文中算法可以大幅度降低时间复杂度并显著提高离群检测率.
[Abstract]:Outlier detection, also known as outlier detection, is one of the most significant hot issues in the field of data mining. It is widely used in many fields, such as intrusion, fraud, medical symptoms of pre-disease, and so on. The algorithm based on k-nearest neighbor can be well applied to big data set, so it is widely used in outlier detection based on distance and density. However, the time complexity of k- nearest neighbor algorithm is O (N ~ (2). With the increase of data set size, the time cost increases greatly. The clustering algorithm based on minimum spanning tree is O (NN2) in space complexity and time complexity when using Prim or Kruskal algorithm to construct the minimum spanning tree. The clustering result depends on the choice of user parameters. Moreover, it is easy to miss the local outliers in dense clusters. To solve the above problems, a new outlier detection method is proposed by combining the advantages of density-based and clustering based methods. The advantages of this method are as follows: (1) the time complexity of O (kN) (kN); (_ 2 is O (kN) (kN); (_ 2) and the time complexity of constructing minimum spanning tree is O (NlogN); (_ 3); (4) it can detect many kinds of outlier data. Finally, the effectiveness of the proposed KDNS algorithm, FkNN algorithm and ADC algorithm is verified by a large number of experiments. The experimental results show that the proposed algorithm can greatly reduce the time complexity and improve the outlier detection rate compared with the existing algorithms.
【作者单位】: 西安交通大学软件学院;
【基金】:国家自然基金项目(61473220) 陕西省自然基金项目(S2015YFJM2129)资助~~
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 魏藜,宫学庆,钱卫宁,周傲英;高维空间中的离群点发现[J];软件学报;2002年02期

2 薛安荣;姚林;鞠时光;陈伟鹤;马汉达;;离群点挖掘方法综述[J];计算机科学;2008年11期

3 李存华;;l_∞度量意义下的离群点检测[J];淮海工学院学报(自然科学版);2008年02期

4 封海岳;薛安荣;;基于重叠模块度的社区离群点检测[J];计算机应用与软件;2013年05期

5 王柏钧,王力勤;《稳健回归与离群点检测》介绍[J];成都气象学院学报;1989年04期

6 黄添强;秦小麟;叶飞跃;;基于方形邻域的离群点查找新方法[J];控制与决策;2006年05期

7 熊君丽;;高维空间下基于密度的离群点探测算法实现[J];现代电子技术;2006年15期

8 黄添强;秦小麟;王钦敏;;空间离群点的模型与跳跃取样查找算法[J];中国图象图形学报;2006年09期

9 陈光平;叶东毅;;一种改进的离群点检测方法[J];福州大学学报(自然科学版);2007年03期

10 薛安荣;鞠时光;;基于空间约束的离群点挖掘[J];计算机科学;2007年06期

相关会议论文 前10条

1 张锋;常会友;;茫然第三方支持的隐私保持离群点探测协议[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

2 连凤娜;吴锦林;薛永生;;一种改进的基于距离的离群挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年

3 梁雪琴;刘红生;代秀梅;周亚芬;;聚类离群点挖掘技术在内部审计信息化中的应用——一个来自商业银行信用卡审计的实例[A];全国内部审计理论研讨优秀论文集(2013)[C];2014年

4 于浩;王斌;肖刚;杨晓春;;基于距离的不确定离群点检测[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

5 许龙飞;熊君丽;段敏;;基于粗糙集的高维空间离群点发现算法研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

6 刘文远;李振平;王宝文;裴继辉;;一种多维数据的离群点检测算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年

7 魏藜;钱卫宁;周傲英;;HOT:寻找高维空间中的离群点[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

8 周红福;钱卫宁;魏藜;周傲英;;EDOLOIS:高效准确的子空间局部离群点发现[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

9 王倩;杨京燕;孟璐;;基于改进的蚁群算法和最小生成树的配电网重构[A];中国智能电网学术研讨会论文集[C];2011年

10 王海涛;李建;葛启;朱洪;;内点带权的最小生成树的近似算法[A];2005年全国理论计算机科学学术年会论文集[C];2005年

相关博士学位论文 前10条

1 刘露;异质信息网络中离群点检测方法研究[D];吉林大学;2017年

2 杨鹏;离群检测及其优化算法研究[D];重庆大学;2010年

3 林海;离群检测及离群释义空间查找算法研究[D];重庆大学;2012年

4 薛安荣;空间离群点挖掘技术的研究[D];江苏大学;2008年

5 杨茂林;离群检测算法研究[D];华中科技大学;2012年

6 雷大江;离群检测与离群释义算法研究[D];重庆大学;2012年

7 万家强;基于连通性的离群检测与聚类研究[D];重庆大学;2014年

8 唐向红;数据流离群点检测研究[D];华中科技大学;2010年

9 刘靖;复杂数据类型的离群检测方法研究[D];华南理工大学;2014年

10 汤俊;基于可疑金融交易识别的离群模式挖掘研究[D];武汉理工大学;2007年

相关硕士学位论文 前10条

1 韩红霞;基于距离离群点的分析与研究[D];江苏大学;2007年

2 黄馨玉;基于邻域重心变化的离群点检测算法研究[D];辽宁大学;2015年

3 程百球;基于EP模式的离群点发现[D];安庆师范学院;2015年

4 欧阳根平;Hadoop云平台下基于离群点挖掘的入侵检测技术研究[D];电子科技大学;2015年

5 邓璇;数据流挖掘关键技术研究与实现[D];电子科技大学;2015年

6 周莹莹;利用离群点检测改进协同过滤推荐算法[D];南京邮电大学;2015年

7 张友强;基于选择性集成学习的离群点检测研究[D];青岛科技大学;2016年

8 关皓文;基于离群点检测方法的医保异常发现[D];山东大学;2016年

9 朱杰;基于带时间约束频繁路径的离群轨迹检测[D];苏州大学;2016年

10 马菲;局部离群点检测算法的研究[D];淮北师范大学;2016年



本文编号:2376107

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2376107.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0bcf1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com