面向失衡数据集分类问题的研究与应用
发布时间:2017-06-03 11:13
本文关键词:面向失衡数据集分类问题的研究与应用,由笔耕文化传播整理发布。
【摘要】:面向失衡数据集的分类问题是数据挖掘与机器学习领域中最具有挑战性的热点研究问题之一。近年来,随着计算机技术的发展和信息化的进步,越来越多的决策需要数据的支持。在大数据时代的背景下,基于数据挖掘技术的分类问题成为企业快速决策、精准营销和提高综合竞争力的有力手段。失衡数据集是现实领域中存在的一种数据形态,真实客观的描述了某些事物本质的特征,即大量数据中只有很少的一部分是人们所格外关心的,而这部分数据却往往隐藏在大量的数据之中,难以被准确的分类。失衡数据集分类问题是数据挖掘领域中的一个难题,很多适用于传统分类问题的常用分类策略并不能很好的处理这一问题,因此引起了全世界各国专家学者的极大重视。 本文首先介绍了失衡数据集的概念,介绍了各国专家和学者在失衡数据集分类问题领域的研究进展,阐述了失衡数据集分类困难的原因和目前普遍采用的解决方法以及分类器的性能评价指标。在充分考虑到失衡数据信息匮乏,数据淹没和采样后信息损失等因素的基础上,,提出了基于聚类簇边界采样的失衡数据重采样策略。并结合基于支持向量机的集成学习方法,从数据端和算法端两方面提出了失衡数据集分类问题的解决策略。在实验构建与分析部分分别用四种典型形态的失衡数据集验证了该策略的有效性和稳定性。最后,结合集成学习方法将失衡数据集分类问题应用到了电信客户关系预测领域,使用真实的电信客户关系数据把具体的采样和分类策略集成到应用系统当中,取得了较好的分类效果。
【关键词】:失衡数据集 分类 重采样 集成学习
【学位授予单位】:哈尔滨理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13
【目录】:
- 摘要5-6
- Abstract6-10
- 第1章 绪论10-16
- 1.1 课题研究的目的和意义10-11
- 1.2 失衡数据集问题的研究概况与发展趋势11-14
- 1.2.1 国外研究现状11-13
- 1.2.2 国内研究概况13-14
- 1.3 本课题研究的主要内容14-16
- 1.3.1 课题来源14-15
- 1.3.2 课题的主要研究内容15-16
- 第2章 失衡数据集分类问题16-24
- 2.1 失衡数据集分类问题概述16-17
- 2.2 失衡数据集分类困难的原因分析17-18
- 2.3 解决失衡数据集分类问题的主要方法18-19
- 2.4 失衡数据集分类性能评价指标19-23
- 2.4.1 传统分类性能评价指标20-21
- 2.4.2 接受者操作特征曲线及 AUC21-23
- 2.5 本章小结23-24
- 第3章 基于聚类簇边界的采样方法24-33
- 3.1 数据重采样方法24-25
- 3.2 基于聚类的重采样方法25-27
- 3.2.1 聚类分析技术概述25-26
- 3.2.2 聚类采样技术 SBC26-27
- 3.3 密度聚类簇边界采样方法27-32
- 3.3.1 密度聚类及 DBSCAN 算法概述27-29
- 3.3.2 密度聚类簇的边界识别方法29-31
- 3.3.3 密度聚类簇边界采样方法31-32
- 3.4 本章小结32-33
- 第4章 集成学习的失衡数据集分类方法33-47
- 4.1 支持向量机33-37
- 4.1.1 支持向量机原理33-35
- 4.1.2 常用核函数35-36
- 4.1.3 惩罚因子36-37
- 4.2 集成学习方法37-40
- 4.2.1 集成学习基本思想37-38
- 4.2.2 分类器集成方法38-40
- 4.3 实验与分析40-46
- 4.3.1 实验数据选取40
- 4.3.2 聚类簇边界采样实验与分析40-42
- 4.3.3 聚类簇边界采样分类效果分析42-45
- 4.3.4 集成学习方法实验与分析45-46
- 4.4 本章小结46-47
- 第5章 失衡数据集分类问题在电信客户关系管理中的应用47-53
- 5.1 电信客户关系47-48
- 5.2 需求分析48-49
- 5.2.1 系统用途48
- 5.2.2 功能需求48-49
- 5.3 总体设计49-50
- 5.3.1 总体架构49-50
- 5.3.2 软/硬件需求50
- 5.4 模块设计50-52
- 5.5 本章小结52-53
- 结论53-54
- 参考文献54-60
- 攻读硕士学位期间发表的学术论文60-61
- 致谢61
【参考文献】
中国期刊全文数据库 前9条
1 谢纪刚;裘正定;;非平衡数据集Fisher线性判别模型[J];北京交通大学学报;2006年05期
2 李鹏;王晓龙;刘远超;王宝勋;;一种基于混合策略的失衡数据集分类方法[J];电子学报;2007年11期
3 曾志强;吴群;廖备水;高济;;一种基于核SMOTE的非平衡数据集分类方法[J];电子学报;2009年11期
4 郝秀兰;陶晓鹏;徐和祥;胡运发;;kNN文本分类器类偏斜问题的一种处理对策[J];计算机研究与发展;2009年01期
5 肖健华;吴今培;;样本数目不对称时的SVM模型[J];计算机科学;2003年02期
6 刘静,钟伟才,刘芳焦,李成;组织协同进化分类算法[J];计算机学报;2003年04期
7 李雄飞;李军;董元方;屈成伟;;一种新的不平衡数据学习算法PCBoost[J];计算机学报;2012年02期
8 秦锋;杨波;程泽凯;;分类器性能评价标准研究[J];计算机技术与发展;2006年10期
9 旷岭;;电信客户流失数据分析方案设计与应用研究[J];中南林业科技大学学报;2011年06期
中国博士学位论文全文数据库 前1条
1 谷琼;面向非均衡数据集的机器学习及在地学数据处理中的应用[D];中国地质大学;2009年
本文关键词:面向失衡数据集分类问题的研究与应用,由笔耕文化传播整理发布。
本文编号:418001
本文链接:https://www.wllwen.com/guanlilunwen/kehuguanxiguanli/418001.html