当前位置:主页 > 科技论文 > 软件论文 >

BOD:一种高效的分布式离群点检测算法

发布时间:2018-04-24 23:25

  本文选题:离群点检测 + 分布式计算 ; 参考:《计算机学报》2016年01期


【摘要】:离群点检测是数据管理领域中的热点问题之一,在许多方面都有着广泛应用,如信用卡诈骗、网络入侵检测、环境监测等.目前现有的离群点检测算法大多针对集中式的处理环境.但随着数据规模的不断增长,传统的集中式算法处理效率受限,无法满足用户日益增长的需求.针对上述问题,文中提出了一种新型的分布式离群点检测算法.首先,在数据存储阶段(即预处理),提出了BDSP(Balance Driven Spatial Partitioning)数据划分算法.该算法可以有效地均衡每个计算节点的工作负载,并实现良好的过滤效果.此外,为划分所得到的每个块设计了一种全新的编码方式,可以快速地确定块与块之间的相邻关系,降低网络开销.基于BDSP算法,提出了BOD(BDSP-based Outlier Detection)分布式离群点检测算法.该算法包括2个步骤:在每个计算节点本地,利用R树索引进行批量过滤,快速地计算离群点并得到本地候选集;利用BDSP中提供的块编码确定需要相互通信的节点,使用少量的网络开销得到最终结果.最后,通过大量实验验证了文中所提出的BDSP和BOD算法的有效性.实验结果表明,相对于现有算法,文中算法可以显著地提高计算效率并大幅降低网络开销.
[Abstract]:Outlier detection is one of the hot issues in the field of data management. It is widely used in many fields, such as credit card fraud, network intrusion detection, environmental monitoring and so on. At present, most of the existing outlier detection algorithms are focused on centralized processing environment. However, with the increasing of data scale, the efficiency of traditional centralized algorithms is limited, which can not meet the increasing needs of users. To solve the above problems, a new distributed outlier detection algorithm is proposed. Firstly, the BDSP(Balance Driven Spatial partitioning algorithm is proposed in the data storage stage (i.e. preprocessing). The algorithm can effectively balance the workload of each computing node and achieve a good filtering effect. In addition, a new coding method is designed for each block, which can quickly determine the relationship between blocks and reduce the network overhead. Based on BDSP algorithm, a distributed outlier detection algorithm based on BOD(BDSP-based Outlier Detection is proposed. The algorithm includes two steps: using R-tree index to filter outliers quickly and get local candidate set at each computing node local, and using block coding provided in BDSP to determine nodes that need to communicate with each other. Use a small amount of network overhead to get the final result. Finally, the effectiveness of the proposed BDSP and BOD algorithms is verified by a large number of experiments. Experimental results show that the proposed algorithm can significantly improve the computational efficiency and significantly reduce the network overhead compared with the existing algorithms.
【作者单位】: 东北大学信息科学与工程学院;
【基金】:国家“九七三”重点基础研究发展规划项目基金(2012CB316201) 国家自然科学基金面上项目(61033007,61472070)资助
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 薛安荣;姚林;鞠时光;陈伟鹤;马汉达;;离群点挖掘方法综述[J];计算机科学;2008年11期

2 李存华;;l_∞度量意义下的离群点检测[J];淮海工学院学报(自然科学版);2008年02期

3 李昕;颜学峰;;融合离群点判别的稳态检测方法及其应用[J];华东理工大学学报(自然科学版);2009年01期

4 封海岳;薛安荣;;基于重叠模块度的社区离群点检测[J];计算机应用与软件;2013年05期

5 王柏钧,王力勤;《稳健回归与离群点检测》介绍[J];成都气象学院学报;1989年04期

6 黄添强;秦小麟;叶飞跃;;基于方形邻域的离群点查找新方法[J];控制与决策;2006年05期

7 熊君丽;;高维空间下基于密度的离群点探测算法实现[J];现代电子技术;2006年15期

8 黄添强;秦小麟;王钦敏;;空间离群点的模型与跳跃取样查找算法[J];中国图象图形学报;2006年09期

9 陈光平;叶东毅;;一种改进的离群点检测方法[J];福州大学学报(自然科学版);2007年03期

10 薛安荣;鞠时光;;基于空间约束的离群点挖掘[J];计算机科学;2007年06期

相关会议论文 前9条

1 张锋;常会友;;茫然第三方支持的隐私保持离群点探测协议[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

2 连凤娜;吴锦林;薛永生;;一种改进的基于距离的离群挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年

3 梁雪琴;刘红生;代秀梅;周亚芬;;聚类离群点挖掘技术在内部审计信息化中的应用——一个来自商业银行信用卡审计的实例[A];全国内部审计理论研讨优秀论文集(2013)[C];2014年

4 于浩;王斌;肖刚;杨晓春;;基于距离的不确定离群点检测[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

5 许龙飞;熊君丽;段敏;;基于粗糙集的高维空间离群点发现算法研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

6 刘文远;李振平;王宝文;裴继辉;;一种多维数据的离群点检测算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年

7 魏藜;钱卫宁;周傲英;;HOT:寻找高维空间中的离群点[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

8 周红福;钱卫宁;魏藜;周傲英;;EDOLOIS:高效准确的子空间局部离群点发现[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

9 魏藜;钱卫宁;周傲英;;SLOT:基于估计的高效子空间局部离群点发现[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

相关博士学位论文 前10条

1 杨鹏;离群检测及其优化算法研究[D];重庆大学;2010年

2 林海;离群检测及离群释义空间查找算法研究[D];重庆大学;2012年

3 薛安荣;空间离群点挖掘技术的研究[D];江苏大学;2008年

4 杨茂林;离群检测算法研究[D];华中科技大学;2012年

5 金义富;高维稀疏离群数据集延伸知识发现研究[D];重庆大学;2007年

6 雷大江;离群检测与离群释义算法研究[D];重庆大学;2012年

7 万家强;基于连通性的离群检测与聚类研究[D];重庆大学;2014年

8 唐向红;数据流离群点检测研究[D];华中科技大学;2010年

9 刘靖;复杂数据类型的离群检测方法研究[D];华南理工大学;2014年

10 汤俊;基于可疑金融交易识别的离群模式挖掘研究[D];武汉理工大学;2007年

相关硕士学位论文 前10条

1 韩红霞;基于距离离群点的分析与研究[D];江苏大学;2007年

2 黄馨玉;基于邻域重心变化的离群点检测算法研究[D];辽宁大学;2015年

3 程百球;基于EP模式的离群点发现[D];安庆师范学院;2015年

4 欧阳根平;Hadoop云平台下基于离群点挖掘的入侵检测技术研究[D];电子科技大学;2015年

5 连凤娜;离群点挖掘及其内涵知识发现研究[D];厦门大学;2008年

6 姚林;离群点快速挖掘算法的研究[D];江苏大学;2008年

7 夏勇;聚类分析和离群点识别技术研究及其应用[D];哈尔滨工程大学;2008年

8 马良斋;基于属性权重的局部离群点挖掘算法研究[D];兰州大学;2010年

9 王雪英;离群点预处理及检测算法研究[D];西南交通大学;2009年

10 吴迪;高维空间中基于空间划分的离群点挖掘算法研究[D];河北工程大学;2010年



本文编号:1798738

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1798738.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户929fe***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com