一种分布式计算的空间离群点挖掘算法
本文选题:空间离群点 + 分布式计算 ; 参考:《测绘科学》2017年08期
【摘要】:针对现有空间离群点挖掘算法无法适应大规模空间数据挖掘的需求,该文提出了一种分布式条件下的空间离群点挖掘算法。首先,该文针对集群上分布式计算和存储的特点提出使用空间填充曲线来划分数据集,加速寻找目标点的近似空间最近邻居。其次,使用信息熵的理论来定义空间离群系数,考虑到多维数据中不同属性对离群系数的影响具有差异性,该算法能够自动根据数据原有特点,计算各属性的权重;同时使用反距离权定义空间因素对离群系数的影响。最后,实验结果表明该算法在大规模的空间数据集中挖掘离群点的效率远高于传统算法,离群点的挖掘精度在90%以上。
[Abstract]:As the existing spatial outlier mining algorithms can not meet the needs of large-scale spatial data mining, a distributed spatial outlier mining algorithm is proposed in this paper. Firstly, according to the characteristics of distributed computing and storage on cluster, this paper proposes to divide the data set with space filling curve to find the nearest neighbor of the target point in the approximate space. Secondly, the theory of information entropy is used to define the spatial outlier coefficients. Considering the difference of the influence of different attributes on the outlier coefficients in multidimensional data, the algorithm can automatically calculate the weights of each attribute according to the original characteristics of the data. At the same time, the influence of spatial factors on outliers is defined by inverse distance weight. Finally, the experimental results show that the algorithm is much more efficient than the traditional algorithm in mining outliers in large-scale spatial data sets, and the precision of outlier mining is more than 90%.
【作者单位】: 中国测绘科学研究院;武汉大学;辽宁工程技术大学;
【基金】:测绘地理信息公益性行业科研专项(201512032,201512027) 中国测绘科学研究院基本科研业务费项目(7771414)
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 魏藜,宫学庆,钱卫宁,周傲英;高维空间中的离群点发现[J];软件学报;2002年02期
2 薛安荣;姚林;鞠时光;陈伟鹤;马汉达;;离群点挖掘方法综述[J];计算机科学;2008年11期
3 李存华;;l_∞度量意义下的离群点检测[J];淮海工学院学报(自然科学版);2008年02期
4 封海岳;薛安荣;;基于重叠模块度的社区离群点检测[J];计算机应用与软件;2013年05期
5 王柏钧,王力勤;《稳健回归与离群点检测》介绍[J];成都气象学院学报;1989年04期
6 黄添强;秦小麟;叶飞跃;;基于方形邻域的离群点查找新方法[J];控制与决策;2006年05期
7 熊君丽;;高维空间下基于密度的离群点探测算法实现[J];现代电子技术;2006年15期
8 黄添强;秦小麟;王钦敏;;空间离群点的模型与跳跃取样查找算法[J];中国图象图形学报;2006年09期
9 陈光平;叶东毅;;一种改进的离群点检测方法[J];福州大学学报(自然科学版);2007年03期
10 薛安荣;鞠时光;;基于空间约束的离群点挖掘[J];计算机科学;2007年06期
相关会议论文 前9条
1 张锋;常会友;;茫然第三方支持的隐私保持离群点探测协议[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 连凤娜;吴锦林;薛永生;;一种改进的基于距离的离群挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 梁雪琴;刘红生;代秀梅;周亚芬;;聚类离群点挖掘技术在内部审计信息化中的应用——一个来自商业银行信用卡审计的实例[A];全国内部审计理论研讨优秀论文集(2013)[C];2014年
4 于浩;王斌;肖刚;杨晓春;;基于距离的不确定离群点检测[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
5 许龙飞;熊君丽;段敏;;基于粗糙集的高维空间离群点发现算法研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
6 刘文远;李振平;王宝文;裴继辉;;一种多维数据的离群点检测算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
7 魏藜;钱卫宁;周傲英;;HOT:寻找高维空间中的离群点[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 周红福;钱卫宁;魏藜;周傲英;;EDOLOIS:高效准确的子空间局部离群点发现[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 魏藜;钱卫宁;周傲英;;SLOT:基于估计的高效子空间局部离群点发现[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
相关博士学位论文 前10条
1 杨鹏;离群检测及其优化算法研究[D];重庆大学;2010年
2 林海;离群检测及离群释义空间查找算法研究[D];重庆大学;2012年
3 薛安荣;空间离群点挖掘技术的研究[D];江苏大学;2008年
4 杨茂林;离群检测算法研究[D];华中科技大学;2012年
5 雷大江;离群检测与离群释义算法研究[D];重庆大学;2012年
6 万家强;基于连通性的离群检测与聚类研究[D];重庆大学;2014年
7 唐向红;数据流离群点检测研究[D];华中科技大学;2010年
8 刘靖;复杂数据类型的离群检测方法研究[D];华南理工大学;2014年
9 汤俊;基于可疑金融交易识别的离群模式挖掘研究[D];武汉理工大学;2007年
10 苏亮;数据流分析关键技术研究[D];国防科学技术大学;2008年
相关硕士学位论文 前10条
1 韩红霞;基于距离离群点的分析与研究[D];江苏大学;2007年
2 黄馨玉;基于邻域重心变化的离群点检测算法研究[D];辽宁大学;2015年
3 程百球;基于EP模式的离群点发现[D];安庆师范学院;2015年
4 欧阳根平;Hadoop云平台下基于离群点挖掘的入侵检测技术研究[D];电子科技大学;2015年
5 邓璇;数据流挖掘关键技术研究与实现[D];电子科技大学;2015年
6 周莹莹;利用离群点检测改进协同过滤推荐算法[D];南京邮电大学;2015年
7 张友强;基于选择性集成学习的离群点检测研究[D];青岛科技大学;2016年
8 关皓文;基于离群点检测方法的医保异常发现[D];山东大学;2016年
9 朱杰;基于带时间约束频繁路径的离群轨迹检测[D];苏州大学;2016年
10 马菲;局部离群点检测算法的研究[D];淮北师范大学;2016年
,本文编号:1971343
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1971343.html