基于深度森林的运营商用户流失预测应用研究
发布时间:2021-10-12 20:34
现如今,电信运营商市场趋于饱和,携号转网政策的全面实施无疑加剧了运营商之间的竞争,如何保留老用户成为了运营商日常业务中最为关注的问题之一。为此,运营商需要对用户的流失行为进行精准预测,从而制定相应的策略来维系用户。在此背景下,本文依托数据挖掘技术,对运营商用户数据进行分析处理,基于深度森林算法搭建了用户流失预测模型。本文的主要研究工作如下:(1)基于数据挖掘技术对运营商后台系统获取的真实用户数据进行分析,利用数据清洗、数据变换以及基于Relief方法的特征选择来保证数据的科学有效性。根据最终确定的16个特征变量,本文基于gcForest深度森林算法搭建了用户流失预测模型,并同支持向量机、KNN等常见机器学习算法进行了对比,结果表明,基于gcForest算法的用户流失预测模型的表现优于传统机器学习算法。(2)改进gcForest算法对于类不平衡数据的处理方式,基于EasyEnsemble算法的思想,提出了将SMOTE算法和ENN算法融合到gcForest算法框架之中的OSEEN-gcForest算法,并依此搭建了用户流失预测模型。(3)在UCI公开数据集上对改进算法进行验证的基础上,将改...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 用户流失预测模型
1.2.2 不平衡数据分类问题
1.2.3 特征选择
1.3 研究目的及创新点
1.3.1 研究目的
1.3.2 创新点
1.4 本文主要研究内容及组织架构
第二章 相关理论及技术基础
2.1 用户流失预测问题定义
2.2 数据挖掘
2.2.1 数据挖掘概述
2.2.2 数据挖掘流程
2.3 不平衡数据分类问题的处理方法
2.3.1 数据层面--重采样技术
2.3.2 算法层面
2.4 常见机器学习方法
2.4.1 逻辑回归
2.4.2 支持向量机
2.4.3 决策树
2.4.4 KNN
2.4.5 随机森林
2.5 模型选择及参数优化
2.6 本章小结
第三章 实验数据集及特征工程
3.1 实验数据集
3.2 数据预处理
3.2.1 数据清洗
3.2.2 数据变换
3.3 特征工程
3.3.1 特征构建
3.3.2 特征提取
3.3.3 特征选择
3.4 模型评价指标
3.4.1 准确率、召回率、F1-score
3.4.2 ROC曲线及AUC值
3.5 本章小结
第四章 基于OSEEN-gcForest算法的用户流失预测模型
4.1 gcForest算法
4.1.1 多粒度滑动窗口
4.1.2 级联森林
4.2 基于EasyEnsemble思想的OSEEN-gcForest算法
4.2.1 EasyEnsemble算法
4.2.2 SMOTE算法
4.2.3 ENN降噪
4.2.4 OSEEN-gcForest算法
4.3 实验结果与分析
4.3.1 基于公开数据集
4.3.2 基于运营商用户流失数据集
4.4 本章小结
第五章 总结与展望
5.1 本文工作总结
5.2 未来研究工作展望
参考文献
致谢
学位论文评阅及答辩情况表
【参考文献】:
期刊论文
[1]基于Logistic回归的通信业客户流失预测与挽留研究[J]. 付杰,方芳,严克文. 鄂州大学学报. 2015(06)
[2]基于贝叶斯网络的客户流失分析研究[J]. 朱志勇,徐长梅,刘志兵,胡晨刚. 计算机工程与科学. 2013(03)
[3]支持向量机在电信客户流失预测中的应用研究[J]. 王观玉,郭勇. 计算机仿真. 2011(04)
[4]基于数据挖掘技术的电信客户保有研究[J]. 王少芬. 计算机时代. 2007(09)
[5]基于改进支持向量机的客户流失分析研究[J]. 赵宇,李兵,李秀,刘文煌,任守榘. 计算机集成制造系统. 2007(01)
硕士论文
[1]基于不平衡数据集的客户流失预测研究[D]. 杨智.西南交通大学 2011
本文编号:3433252
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 用户流失预测模型
1.2.2 不平衡数据分类问题
1.2.3 特征选择
1.3 研究目的及创新点
1.3.1 研究目的
1.3.2 创新点
1.4 本文主要研究内容及组织架构
第二章 相关理论及技术基础
2.1 用户流失预测问题定义
2.2 数据挖掘
2.2.1 数据挖掘概述
2.2.2 数据挖掘流程
2.3 不平衡数据分类问题的处理方法
2.3.1 数据层面--重采样技术
2.3.2 算法层面
2.4 常见机器学习方法
2.4.1 逻辑回归
2.4.2 支持向量机
2.4.3 决策树
2.4.4 KNN
2.4.5 随机森林
2.5 模型选择及参数优化
2.6 本章小结
第三章 实验数据集及特征工程
3.1 实验数据集
3.2 数据预处理
3.2.1 数据清洗
3.2.2 数据变换
3.3 特征工程
3.3.1 特征构建
3.3.2 特征提取
3.3.3 特征选择
3.4 模型评价指标
3.4.1 准确率、召回率、F1-score
3.4.2 ROC曲线及AUC值
3.5 本章小结
第四章 基于OSEEN-gcForest算法的用户流失预测模型
4.1 gcForest算法
4.1.1 多粒度滑动窗口
4.1.2 级联森林
4.2 基于EasyEnsemble思想的OSEEN-gcForest算法
4.2.1 EasyEnsemble算法
4.2.2 SMOTE算法
4.2.3 ENN降噪
4.2.4 OSEEN-gcForest算法
4.3 实验结果与分析
4.3.1 基于公开数据集
4.3.2 基于运营商用户流失数据集
4.4 本章小结
第五章 总结与展望
5.1 本文工作总结
5.2 未来研究工作展望
参考文献
致谢
学位论文评阅及答辩情况表
【参考文献】:
期刊论文
[1]基于Logistic回归的通信业客户流失预测与挽留研究[J]. 付杰,方芳,严克文. 鄂州大学学报. 2015(06)
[2]基于贝叶斯网络的客户流失分析研究[J]. 朱志勇,徐长梅,刘志兵,胡晨刚. 计算机工程与科学. 2013(03)
[3]支持向量机在电信客户流失预测中的应用研究[J]. 王观玉,郭勇. 计算机仿真. 2011(04)
[4]基于数据挖掘技术的电信客户保有研究[J]. 王少芬. 计算机时代. 2007(09)
[5]基于改进支持向量机的客户流失分析研究[J]. 赵宇,李兵,李秀,刘文煌,任守榘. 计算机集成制造系统. 2007(01)
硕士论文
[1]基于不平衡数据集的客户流失预测研究[D]. 杨智.西南交通大学 2011
本文编号:3433252
本文链接:https://www.wllwen.com/guanlilunwen/sjfx/3433252.html