基于XGBoost的Bagging方法的电信客户流失预测应用研究
发布时间:2023-03-26 17:27
近几年来,随着移动通讯行业的不断发展,运营商对客户的管理更加重视。根据相关研究表明,开发一个新用户的成本是挽留一个老用户成本的六倍。因此准确预测流失客户对运营商来说非常关键。目前,运营商已经积累了大量的用户信息和行为信息,电信大数据可以使客户流失预测变得更容易。但是总体来说,仍存在一下几个问题:数据体量庞大且来自异构数据源带来的数据完整性一致性方面问题;电信用户数据维度过高;且流失用户与非流失用户之间在数量上占比极不均衡。这给客户流失预测的研究带来了困难。在本次电信客户流失预测的研究中,针对以上问题,提出了如下解决方案:通过Apache Hadoop和Spark的分布式架构的大数据平台整合了来自异构数据源的电信运营数据;通过图论、自然语言、栈式自动编码神经网络等方法挖掘了电信用户大数据下隐藏的特征信息;对比了几种针对类不平衡数据集的采样方法和多种采样方式混合的方法;提出基于XGBoost的Bagging方法结合混合采样方法的融合模型,充分利用了不平衡数据集,构建了二分类模型对电信用户进行流失预测。最终在实验中,通过常用的模型评价指标精确率、召回率、AUC等,并结合流失客户挽留活动的期望...
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.3 不平衡类的算法研究现状
1.4 研究内容
1.5 论文组织结构
第二章 相关理论介绍与技术论述
2.1 移动通信行业客户流失的概述
2.1.1 客户流失定义
2.1.2 客户流失预测面临的问题和挑战
2.2 数据样本处理方法
2.2.1 样本数据缺失值处理
2.2.2 样本特征值标准化处理
2.3 不平衡分类问题的研究
2.3.1 基于数据层面的类平衡化方法
2.3.2 基于算法层面的类平衡化方法
2.3.3 基于集成算法层面的类平衡化方法
2.4 验证方法
2.5 本章小结
第三章 客户流失预测模型
3.1 数据基础和平台搭建
3.2 数据预处理
3.3 类不平衡样本处理
3.3.1 随机下采样方法和SMOTE
3.3.2 SMOTE和 Tomek-links方法
3.4 特征工程
3.3.1 基于图的特征
3.3.2 自然语言相关特征
3.3.3 特征选择
3.5 基于xgboost的 bagging模型
3.6 预流失用户挽留活动
3.7 本章小结
第四章 实验设计与实验结果分析
4.1 实验环境
4.2 实验评价指标
4.3 实验设计及结果分析
4.4 本章小结
第五章 期望利润评价的集成学习模型验证
5.1 期望利润最大评价指标
5.2 仿真实验与实验分析
5.3 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件
本文编号:3771383
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.3 不平衡类的算法研究现状
1.4 研究内容
1.5 论文组织结构
第二章 相关理论介绍与技术论述
2.1 移动通信行业客户流失的概述
2.1.1 客户流失定义
2.1.2 客户流失预测面临的问题和挑战
2.2 数据样本处理方法
2.2.1 样本数据缺失值处理
2.2.2 样本特征值标准化处理
2.3 不平衡分类问题的研究
2.3.1 基于数据层面的类平衡化方法
2.3.2 基于算法层面的类平衡化方法
2.3.3 基于集成算法层面的类平衡化方法
2.4 验证方法
2.5 本章小结
第三章 客户流失预测模型
3.1 数据基础和平台搭建
3.2 数据预处理
3.3 类不平衡样本处理
3.3.1 随机下采样方法和SMOTE
3.3.2 SMOTE和 Tomek-links方法
3.4 特征工程
3.3.1 基于图的特征
3.3.2 自然语言相关特征
3.3.3 特征选择
3.5 基于xgboost的 bagging模型
3.6 预流失用户挽留活动
3.7 本章小结
第四章 实验设计与实验结果分析
4.1 实验环境
4.2 实验评价指标
4.3 实验设计及结果分析
4.4 本章小结
第五章 期望利润评价的集成学习模型验证
5.1 期望利润最大评价指标
5.2 仿真实验与实验分析
5.3 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件
本文编号:3771383
本文链接:https://www.wllwen.com/guanlilunwen/sjfx/3771383.html