面向不平衡数据的离群点检测研究

发布时间:2017-12-19 15:09

  本文关键词:面向不平衡数据的离群点检测研究 出处:《青岛科技大学》2017年硕士论文 论文类型:学位论文


  更多相关文章: 离群点 不平衡数据 K-modes 聚类 SMOTE 过采样技术 混合采样 集成学习


【摘要】:随着信息技术、网络的日益普及,收集和存储的数据越来越多,这些数据杂乱无章、毫无规律。数据挖掘技术就是从这些大量的、杂乱的数据中获得对人们有价值的信息。近年来,离群点检测已成为数据挖掘中一个重要的研究领域。离群点是指与其他对象具有明显差异的数据。离群点检测可以挖掘出数据中一小部分具有异常行为或属性的对象,这些对象背后可能隐藏着非常有价值的信息或知识。在欺诈检测、入侵检测、故障诊断等许多领域中,离群点检测都有广泛的应用。现有的离群点检测方法还存在不少问题,例如,没有考虑数据的类别不平衡问题。离群点的数量要远少于非离群点,因此,将不平衡数据的处理方法引入到离群点检测之中,可以更加有效地对离群点进行检测。然而,当前的不平衡数据处理方法主要针对数值型数据进行分析,不能有效处理类别型数据。在现实生活中,我们经常会遇到大量的类别型数据,我们需要从这些类别型数据中检测离群点。由于类别型数据不具备数值型数据的几何特性,因此,不能直接采用现有的方法进行处理,需要针对类别型不平衡数据提出专门的处理方法。为了解决上述问题,本文将研究类别型不平衡数据中的离群点检测问题。首先,提出一种基于加权重叠距离的K-modes聚类算法WODKM;其次,将WODKM算法与SMOTE方法结合在一起,提出一种针对类别型不平衡数据的混合采样算法HS_WODKM;第三,利用HS_WODKM算法以及集成学习来进行离群点检测,从而可以从类别型不平衡数据中有效地检测出离群点。本文的工作主要包括以下几个方面:首先,对传统的K-modes聚类算法进行改进,提出一种基于加权重叠距离的K-modes聚类算法WODKM。WODKM算法充分考虑了重要性不同的属性对聚类的影响,不同的属性在聚类时被赋予不同的权值,从而提高了聚类质量。实验结果表明,WODKM算法在聚类精度上比传统的K-modes算法更加高效。其次,针对类别型不平衡数据,提出一种混合采样算法HS_WODKM。HS_WODKM算法通过增加正类样本个数并减少负类样本个数这种混合采样策略来解决类别型数据的不平衡问题。利用改进的SMOTE方法对正类样本进行过采样,并利用WODKM算法对负类样本进行降采样。通过上述两种采样策略的共同使用,可以有效避免由于样本类别不平衡而导致的过拟合问题。实验结果表明,采用HS_WODKM来处理类别型不平衡数据是有效的。第三,提出一种基于混合采样与集成学习的离群点检测方法,可以从类别型不平衡数据中有效地检测出离群点。该方法首先利用HS_WODKM算法对不平衡数据集进行混合采样,从而得到一个平衡的数据集,然后在预处理之后的数据集上利用集成学习算法进行离群点检测。实验结果表明,我们所提出的方法具有更好的离群点检测性能。
【学位授予单位】:青岛科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13

【参考文献】

中国期刊全文数据库 前10条

1 柴雯;左美云;许伟;王轶博;;SNS中影响力用户预测研究——基于不平衡数据的多种数据挖掘方法对比[J];系统科学与数学;2015年09期

2 辛丽玲;何威;于剑;贾彩燕;;一种基于密度差异的离群点检测算法[J];山东大学学报(工学版);2015年03期

3 江峰;王莎莎;杜军威;眭跃飞;;基于近似决策熵的属性约简[J];控制与决策;2015年01期

4 薛安荣;何峰;闻丹丹;;基于全息熵的空间离群点挖掘算法研究[J];计算机应用研究;2014年02期

5 王敬华;赵新想;张国燕;刘建银;;NLOF:一种新的基于密度的局部离群点检测算法[J];计算机科学;2013年08期

6 杨福萍;王洪国;董树霞;牛家洋;丁艳辉;;基于聚类划分的两阶段离群点检测算法[J];计算机应用研究;2013年07期

7 江峰;眭跃飞;曹存根;;粗糙集中的距离度量与离群点检测[J];控制与决策;2013年02期

8 于重重;田蕊;谭励;涂序彦;;非平衡样本分类的集成迁移学习算法[J];电子学报;2012年07期

9 李雄飞;李军;董元方;屈成伟;;一种新的不平衡数据学习算法PCBoost[J];计算机学报;2012年02期

10 林舒杨;李翠华;江弋;林琛;邹权;;不平衡数据的降采样方法研究[J];计算机研究与发展;2011年S3期

中国硕士学位论文全文数据库 前10条

1 张友强;基于选择性集成学习的离群点检测研究[D];青岛科技大学;2016年

2 陈斌;SMOTE不平衡数据过采样算法的改进与应用[D];广西大学;2015年

3 张佃伦;基于粗糙集的聚类算法及其在入侵检测中的应用[D];青岛科技大学;2015年

4 徐子龙;代价敏感学习中属性约简与决策树分类若干关键问题研究[D];闽南师范大学;2014年

5 王莎莎;基于粗糙集和离群点挖掘的网络入侵检测研究[D];青岛科技大学;2014年

6 余泽;混合属性聚类融合及数据流聚类算法研究[D];浙江工业大学;2014年

7 欧阳源怞;基于混合采样的非平衡数据集分类研究[D];重庆大学;2014年

8 胡婷婷;数据挖掘中的离群点检测算法研究[D];厦门大学;2014年

9 陆洪涛;偏最小二乘回归数学模型及其算法研究[D];华北电力大学;2014年

10 宋海燕;基于集成学习的不平衡数据分类[D];西安电子科技大学;2014年



本文编号:1308402

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1308402.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户416fd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com