基于不平衡数据的分类方法研究
发布时间:2017-09-07 21:28
本文关键词:基于不平衡数据的分类方法研究
更多相关文章: 数据挖掘 分类 不平衡数据 测地距离 K-近邻 数据引力
【摘要】:数据分类作为数据挖掘的一项重要任务,国内外学者进行了大量的研究。但是这些传统方法都是基于平衡数据进行分类的,当基于如医学诊断、异常检测等领域的数据时,由于这些数据在分布上不平衡,导致了少数类的漏报,所以基于不平衡数据的分类方法是本文的研究课题。本文的研究工作是:对传统的分类算法进行研究,根据这些方法在不平衡数据集上的缺陷,学习了目前存在的不平衡数据分类方法;重点研究了DGC和IDGC模型,针对其局限性,提出了改进的GIDGC-KNN分类模型,并进行了实验评估。(1)基础算法研究。从传统分类算法如SVM、KNN、决策树和AdaBoost等进行学习,从不平衡分类算法如数据层面、代价敏感、单分类和集成学习等方面进行研究,如SMOTE、weight SVM、One Class SVM、SSLM和SMOTEBoost。(2)针对DGC和IDGC分类模型,提出基于测地距离的局部相关分类模型GIDGC-KNN。首先从数据引力、特征权值选择、数据质点创建分析了DGC和IDGC的分类原理。由于这两个模型没有考虑数据分布性状和待测数据近邻类相关性而存在准确率低的问题,提出了GIDGC-KNN模型。该模型继承了IDGC的引力放大系数AGC,同时结合测地距离和KNN算法得到数据分布隐含的全局几何结构和近邻样本类相关性。而且该模型在数据质点创建过程中采用了MNP,相对于IDGC中使用的MDP一定程度保留了原始数据的分布性状和局部相关性,体现了改进模型的先进性。(3)实验验证。实验采用来自KEEL数据集仓库中22个不平衡二类分类数据,用AUC和GM作为分类性能评估的指标,将GIDGC-KNN分类模型与传统的采样技术、代价敏感和提升方法比较。实验结果证明了该模型有明显的分类性能。
【关键词】:数据挖掘 分类 不平衡数据 测地距离 K-近邻 数据引力
【学位授予单位】:中北大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要4-5
- Abstract5-9
- 1 绪论9-17
- 1.1 课题研究背景及意义9-11
- 1.2 不平衡数据分类研究背景及现状11-12
- 1.3 不平衡数据分类研究目的与成果12-13
- 1.4 本文的组织结构13-15
- 1.5 本章小结15-17
- 2 不平衡分类方法概述17-29
- 2.1 问题引出17-18
- 2.2 传统分类方法18-23
- 2.2.1 SVM18-20
- 2.2.2 KNN方法20-21
- 2.2.3 决策树21-22
- 2.2.4 AdaBoost22-23
- 2.3 不平衡数据集概述23-24
- 2.4 不平衡分类方法24-27
- 2.4.1 SMOTE24-25
- 2.4.2 加权SVM25-26
- 2.4.3 One Class SVM26
- 2.4.4 SSLM26-27
- 2.4.5 SMOTEBoost27
- 2.5 本章小结27-29
- 3 DGC和IDGC原理29-39
- 3.1 牛顿万有引力定理29
- 3.2 DGC29-32
- 3.2.1 数据引力29-31
- 3.2.2 数据引力定律31
- 3.2.3 DGC分类原理31-32
- 3.3 IDGC32-35
- 3.3.1 IDGC分类原理33-34
- 3.3.2 特征权值计算34-35
- 3.3.3 适应值评估35
- 3.4 数据质点创建35-37
- 3.5 本章小结37-39
- 4 改进算法原理和仿真实验39-55
- 4.1 IDGC-KNN算法原理40-44
- 4.1.1 测地距离40-41
- 4.1.2 IDGC-KNN算法原理41-42
- 4.1.3 GIDGC-KNN数据质点创建42-43
- 4.1.4 IDGC-KNN加权特征43
- 4.1.5 IDGC-KNN算法步骤43-44
- 4.2 仿真实验和分析44-54
- 4.2.1 实验数据集44-46
- 4.2.2 实验参数设置46-47
- 4.2.3 算法评估47
- 4.2.4 实验结果和分析47-54
- 4.3 本章小结54-55
- 5 总结和展望55-59
- 5.1 总结55-56
- 5.2 展望56-59
- 参考文献59-65
- 攻读硕士学位期间发表的论文及所取得的研究成果65-67
- 致谢67-69
【参考文献】
中国期刊全文数据库 前10条
1 支晓斌;高W氱,
本文编号:809996
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/809996.html