当前位置:主页 > 科技论文 > 软件论文 >

基于子空间的两阶段离群挖掘算法及其并行化

发布时间:2018-04-21 20:53

  本文选题:关联子空间 + 候选离群对象 ; 参考:《太原科技大学》2016年硕士论文


【摘要】:离群挖掘是数据挖掘领域中的主要研究内容之一,并已广泛地应用到金融分析、信用诈骗,垃圾邮件分析等领域。针对高维海量数据集,如何有效的降低维灾,提高数据挖掘的精度和效率,是离群挖掘中主要解决的问题。本文从提高离群数据挖掘效果的角度,对两阶段离群检测算法及其并行化进行了研究,其主要研究成果如下:(1)采用筛选候选离群对象删减计算量的思想,给出了一种两阶段离群挖掘算法。第一阶段,计算每个数据对象在每一维的密度比,所有维的密度比的乘积取对数平均作为密度系数,并选取候选离群对象;第二阶段,把候选离群对象的邻居在每一个关联子空间中的偏离程度之积作为偏差比,密度系数与偏差比的乘积作为离群系数,并确定离群数据对象。由于仅计算候选离群对象的离群系数,因此有效地提高挖掘效率;最后,采用UCI数据集,实验验证了该算法不仅保证挖掘结果精度,而且有效提高了挖掘效率。(2)采用Map Reduce编程模型,给出了基于子空间的两阶段离群数据并行挖掘算法。先将数据集的全部数据分配到每一个子节点上,在每一个节点上用一个map函数计算数据的密度系数。用Reduce函数将结果汇总到主节点得到候选离群数据集。为使每个节点负载均衡,对候选离群数据集中的对象重新编号,将计算任务均等的分配到每个子节点。计算候选离群数据集中每个对象的偏差比,用Reduce函数将结果汇总到主节点,计算候选离群对象的离群系数。最后排序,筛选出离群点。
[Abstract]:Outlier mining is one of the main research contents in the field of data mining, and has been widely used in financial analysis, credit fraud, spam analysis and other fields. For high-dimensional massive data sets, how to effectively reduce dimensionality disasters and improve the accuracy and efficiency of data mining is the main problem in outlier mining. In order to improve the effect of outlier data mining, the two-stage outlier detection algorithm and its parallelization are studied in this paper. A two-stage outlier mining algorithm is presented. In the first stage, the density ratio of each data object in each dimension is calculated, the product of the density ratio of all dimensions is taken as the logarithmic average as the density coefficient, and the candidate outliers are selected. The product of deviation degree of neighbor of candidate outlier in each associated subspace is regarded as deviation ratio, and the product of density coefficient and deviation ratio is taken as outlier coefficient, and the outlier data object is determined. Because the outlier coefficients of candidate outliers are only calculated, the mining efficiency is improved effectively. Finally, the UCI dataset is used to verify that the algorithm not only ensures the accuracy of mining results, but also improves the mining efficiency. Moreover, the efficiency of mining is improved effectively. (2) using Map Reduce programming model, a two-stage outlier parallel mining algorithm based on subspace is presented. First, all the data of the data set are assigned to each child node, and the density coefficient of the data is calculated by a map function on each node. Reduce function is used to summarize the results to the primary node to obtain candidate outlier data sets. In order to balance the load of each node, the objects in the candidate outlier dataset are renumbered and the computing tasks are assigned equally to each child node. The deviation ratio of each object in candidate outlier dataset is calculated, and the result is summarized to the primary node by Reduce function, and the outlier coefficient of candidate outlier is calculated. Finally, sorting out outliers.
【学位授予单位】:太原科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 魏藜,宫学庆,钱卫宁,周傲英;高维空间中的离群点发现[J];软件学报;2002年02期

2 薛安荣;姚林;鞠时光;陈伟鹤;马汉达;;离群点挖掘方法综述[J];计算机科学;2008年11期

3 李存华;;l_∞度量意义下的离群点检测[J];淮海工学院学报(自然科学版);2008年02期

4 李昕;颜学峰;;融合离群点判别的稳态检测方法及其应用[J];华东理工大学学报(自然科学版);2009年01期

5 封海岳;薛安荣;;基于重叠模块度的社区离群点检测[J];计算机应用与软件;2013年05期

6 王柏钧,王力勤;《稳健回归与离群点检测》介绍[J];成都气象学院学报;1989年04期

7 黄添强;秦小麟;叶飞跃;;基于方形邻域的离群点查找新方法[J];控制与决策;2006年05期

8 熊君丽;;高维空间下基于密度的离群点探测算法实现[J];现代电子技术;2006年15期

9 黄添强;秦小麟;王钦敏;;空间离群点的模型与跳跃取样查找算法[J];中国图象图形学报;2006年09期

10 陈光平;叶东毅;;一种改进的离群点检测方法[J];福州大学学报(自然科学版);2007年03期

相关会议论文 前9条

1 张锋;常会友;;茫然第三方支持的隐私保持离群点探测协议[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

2 连凤娜;吴锦林;薛永生;;一种改进的基于距离的离群挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年

3 梁雪琴;刘红生;代秀梅;周亚芬;;聚类离群点挖掘技术在内部审计信息化中的应用——一个来自商业银行信用卡审计的实例[A];全国内部审计理论研讨优秀论文集(2013)[C];2014年

4 于浩;王斌;肖刚;杨晓春;;基于距离的不确定离群点检测[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

5 许龙飞;熊君丽;段敏;;基于粗糙集的高维空间离群点发现算法研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

6 刘文远;李振平;王宝文;裴继辉;;一种多维数据的离群点检测算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年

7 魏藜;钱卫宁;周傲英;;HOT:寻找高维空间中的离群点[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

8 周红福;钱卫宁;魏藜;周傲英;;EDOLOIS:高效准确的子空间局部离群点发现[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

9 魏藜;钱卫宁;周傲英;;SLOT:基于估计的高效子空间局部离群点发现[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

相关博士学位论文 前10条

1 刘莘;基于时空分析的CCS泄漏预警关键技术研究[D];中国矿业大学;2016年

2 刘露;异质信息网络中离群点检测方法研究[D];吉林大学;2017年

3 杨鹏;离群检测及其优化算法研究[D];重庆大学;2010年

4 林海;离群检测及离群释义空间查找算法研究[D];重庆大学;2012年

5 薛安荣;空间离群点挖掘技术的研究[D];江苏大学;2008年

6 杨茂林;离群检测算法研究[D];华中科技大学;2012年

7 金义富;高维稀疏离群数据集延伸知识发现研究[D];重庆大学;2007年

8 雷大江;离群检测与离群释义算法研究[D];重庆大学;2012年

9 万家强;基于连通性的离群检测与聚类研究[D];重庆大学;2014年

10 唐向红;数据流离群点检测研究[D];华中科技大学;2010年

相关硕士学位论文 前10条

1 韩红霞;基于距离离群点的分析与研究[D];江苏大学;2007年

2 黄馨玉;基于邻域重心变化的离群点检测算法研究[D];辽宁大学;2015年

3 程百球;基于EP模式的离群点发现[D];安庆师范学院;2015年

4 欧阳根平;Hadoop云平台下基于离群点挖掘的入侵检测技术研究[D];电子科技大学;2015年

5 邓璇;数据流挖掘关键技术研究与实现[D];电子科技大学;2015年

6 周莹莹;利用离群点检测改进协同过滤推荐算法[D];南京邮电大学;2015年

7 陈娟;基于离群特征提取和能量计算的SVM股市预测研究[D];合肥工业大学;2014年

8 张友强;基于选择性集成学习的离群点检测研究[D];青岛科技大学;2016年

9 王美晶;基于PSO算法的离群点检测方法研究[D];福州大学;2013年

10 关皓文;基于离群点检测方法的医保异常发现[D];山东大学;2016年



本文编号:1784056

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1784056.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0f4c5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com