基于多方法融合的电信客户流失预测模型研究与实现
发布时间:2021-10-19 14:53
随着信息化建设的不断深入,电信运营商拥有海量的数据资源,运用数据挖掘技术构建电信客户细分模型和客户流失预测模型具有重要意义。本文通过分析某电信运营商某市公司的客户及业务数据,构建客户细分模型和客户流失预测模型,然后基于客户细分进行客户挽留策略研究。本文的主要工作内容有:1.本文针对电信数据的杂乱、数据量大的问题,在进行主要工作之前进行数据清洗操作。一方面通过数据分类特征可视化,分析不同数据特征对客户流失分布的影响,另一方面制定客户综合价值评判标准,将客户综合价值划分为已实现价值、未实现价值和客户忠诚度,结合业务逻辑改进K-means算法,将客户细分为五个客户群。2.使用多种特征选择方法在不同分类器上进行流失预测效果的对比,实验表明F检验法的效果最佳。另外针对数据类别不平衡的问题,本文使用随机过采样、SMOTE方法和ADASYN方法三种过采样方法在决策树和XGBoost模型上进行流失预测效果的对比。实验表明,三种过采样方法都能一定程度上提升预测效果,在决策树中使用随机过采样效果更好,在XGBoost模型中使用SMOTE方法效果更好。3.选择效果更佳的分类器(决策树、随机森林和XGBoos...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
K-means聚类流程图
第二章相关理论问题及技术概述114.使用投票法计算每一个结果的得票数,将最高票数的预测结果作为随机森林的最终预测。随机森林预测机制如图2-3所示。图2-3随机森林预测机制随机森林算法的优点有:可以处理分类和回归任务,同时处理分类和数值特征;通过平均决策树降低过拟合的风险;随机森林很稳定,数据集出现一个新数据点只会影响到一棵决策树。缺点是在噪音较大的样本集上易造成过拟合。另外随机森林的超参数可以用来提高模型的预测能力,也可以用来加快建模的速度。2.2.3基于Boosting方法的算法Boosting属于有监督的分类学习方法,它通过组合多个弱分类器来生成一个强分类器。Boosting算法比较有代表性的有Adaboost(AdaptiveBoosting)、GBDT(GradientBoostingDecisionTree)、XGBoost和LightGBM。1.Adaboost起初所有样本的权重一样,训练得到第一个分类器。从第二轮开始,每轮开始前根据上一轮分类器的分类结果调整各个样本的权重,增加错分的样本权重,减少正确分类的样本权重,更新权重后继续训练本轮分类器,重复上述操作直到约定的轮数为止。样本权重的调整可以保证在边界附近的样本点在分类时获得更多的关注。Adaboost的优点是可以处理连续值和离散值,无需进行参数的调整,泛化错误率较低。缺点是对数据样本的异常样本比较敏感,容易影响模型效果。2.GBDTGBDT即梯度提升树,以决策树为基函数的提升方法称为提升树。Adaboost通过调整错分样本点的权重来改进模型,而GBDT则通过计算负梯度来改进模型。GBDT的每一轮训练会计算本轮结果的残差,下一轮以本轮残差作为输入,尽量拟合此残差,使得
第二章相关理论问题及技术概述13如果把训练集读入内存则会限制训练数据集的大小,如果不把训练集读入内存,反复读取数据集则会增加耗时。因此,当面对海量训练数据时,LightGBM相比其他模型会更有优势。2.2.4Stacking集成学习算法一般来说,融合多个机器学习模型或多或少都能提高整体的预测能力,且泛化性能一般不会差于最优子模型。在对模型进行融合之前需要满足一定的融合策略,结合策略主要包含Voting、Stacking、Averaging三种策略,而Stacking策略是这三种方法中更为强大的方法[43]。平均法适用于数值型的输出,加权平均法加入了基学习器的权重。投票法将得票最多的作为标记,如果票数相同则随机选择一个。Stacking并行地学习多个同质弱分类器,并训练一个元模型将它们组合在一起,根据多个弱分类器的结果输出一个最终预测结果。Stacking方法会定义一个新学习器对全部基学习器的输出重新训练,基学习器称为初级学习器,用于结合的学习器称为次级学习器。Stacking模型多数情况下分为两层,首先在第一层训练一组基学习器,然后将第一层基学习器的输出和期望的样本标签看作是新的学习任务,通过机器学习或者其他策略训练一个新的模型,次级学习器的输入是基学习器的输出,最后得到一个最终输出。Stacking集成学习方法的过程如图2-4所示。图2-4Stacking集成学习方法示意图2.2.5类别平衡化算法电信客户流失预测的数据集会存在类别不平衡的问题。由于大多数算法是基于统计学和概率论的特点,导致模型训练时会偏向类别数量较多的类,导致学习算法不能完整地学习到数据特征,从而无法提高预测准确率。在现有的研究中,类别平衡化的方法大
【参考文献】:
期刊论文
[1]改进的K-means算法研究[J]. 韩琮师,李旭健. 软件. 2020(03)
[2]基于深度神经网络的客户流失预测模型[J]. 马文斌,夏国恩. 计算机技术与发展. 2019(09)
[3]基于评论情感倾向和神经网络的客户流失预测研究[J]. 冯鑫,王晨,刘苑,杨娅,安海岗. 中国电子科学研究院学报. 2018(03)
[4]基于聚类中心优化的k-means最佳聚类数确定方法[J]. 贾瑞玉,宋建林. 微电子学与计算机. 2016(05)
[5]基于改进K-means算法的RFAT客户细分研究[J]. 刘芝怡,陈功. 南京理工大学学报. 2014(04)
[6]基于遗传算法和BP神经网络的多维客户行为细分模型的研究[J]. 王光辉,张晓光,赵艳芹. 齐齐哈尔大学学报(自然科学版). 2014(04)
[7]基于改进聚类的电信客户流失预测分析[J]. 姜晓娟,郭一娜. 太原理工大学学报. 2014(04)
[8]一种基于社会网络的潜在流失客户发现方法[J]. 黄婉秋. 北京交通大学学报. 2014(03)
[9]随机森林模型在分类与回归分析中的应用[J]. 李欣海. 应用昆虫学报. 2013(04)
[10]基于朴素贝叶斯算法的证券业客户价值细分研究[J]. 王园,李少峰,王永梅,欧冰臻,王秋明,林巧明. 科技和产业. 2013(05)
硕士论文
[1]基于Stacking的P2P贷款违约预测模型构建及应用[D]. 王竟羽.成都理工大学 2019
[2]基于Stacking集成学习的浙江移动公司客户流失分层预测研究[D]. 汪贝贝.浙江工商大学 2018
[3]移动互联网背景下客户流失预测研究[D]. 李衍.厦门大学 2018
[4]基于随机森林的电信客户流失预测应用研究[D]. 邱伟.华南理工大学 2018
[5]客户价值聚类与流失预测系统的设计与实现[D]. 孟翔宇.华中科技大学 2018
[6]基于数据挖掘的烟草零售客户聚类细分研究[D]. 林宗.浙江工业大学 2016
[7]基于数据挖掘方法的客户细分及流失预测[D]. 王喆.北京理工大学 2016
[8]基于改进的K-means算法的银行客户聚类研究[D]. 刘玥.吉林大学 2016
[9]基于神经网络算法构建电信用户流失预测模型的研究[D]. 孙碧颖.兰州大学 2016
[10]基于大数据的客户细分模型及精确营销策略研究[D]. 杨茜.南京邮电大学 2015
本文编号:3445084
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
K-means聚类流程图
第二章相关理论问题及技术概述114.使用投票法计算每一个结果的得票数,将最高票数的预测结果作为随机森林的最终预测。随机森林预测机制如图2-3所示。图2-3随机森林预测机制随机森林算法的优点有:可以处理分类和回归任务,同时处理分类和数值特征;通过平均决策树降低过拟合的风险;随机森林很稳定,数据集出现一个新数据点只会影响到一棵决策树。缺点是在噪音较大的样本集上易造成过拟合。另外随机森林的超参数可以用来提高模型的预测能力,也可以用来加快建模的速度。2.2.3基于Boosting方法的算法Boosting属于有监督的分类学习方法,它通过组合多个弱分类器来生成一个强分类器。Boosting算法比较有代表性的有Adaboost(AdaptiveBoosting)、GBDT(GradientBoostingDecisionTree)、XGBoost和LightGBM。1.Adaboost起初所有样本的权重一样,训练得到第一个分类器。从第二轮开始,每轮开始前根据上一轮分类器的分类结果调整各个样本的权重,增加错分的样本权重,减少正确分类的样本权重,更新权重后继续训练本轮分类器,重复上述操作直到约定的轮数为止。样本权重的调整可以保证在边界附近的样本点在分类时获得更多的关注。Adaboost的优点是可以处理连续值和离散值,无需进行参数的调整,泛化错误率较低。缺点是对数据样本的异常样本比较敏感,容易影响模型效果。2.GBDTGBDT即梯度提升树,以决策树为基函数的提升方法称为提升树。Adaboost通过调整错分样本点的权重来改进模型,而GBDT则通过计算负梯度来改进模型。GBDT的每一轮训练会计算本轮结果的残差,下一轮以本轮残差作为输入,尽量拟合此残差,使得
第二章相关理论问题及技术概述13如果把训练集读入内存则会限制训练数据集的大小,如果不把训练集读入内存,反复读取数据集则会增加耗时。因此,当面对海量训练数据时,LightGBM相比其他模型会更有优势。2.2.4Stacking集成学习算法一般来说,融合多个机器学习模型或多或少都能提高整体的预测能力,且泛化性能一般不会差于最优子模型。在对模型进行融合之前需要满足一定的融合策略,结合策略主要包含Voting、Stacking、Averaging三种策略,而Stacking策略是这三种方法中更为强大的方法[43]。平均法适用于数值型的输出,加权平均法加入了基学习器的权重。投票法将得票最多的作为标记,如果票数相同则随机选择一个。Stacking并行地学习多个同质弱分类器,并训练一个元模型将它们组合在一起,根据多个弱分类器的结果输出一个最终预测结果。Stacking方法会定义一个新学习器对全部基学习器的输出重新训练,基学习器称为初级学习器,用于结合的学习器称为次级学习器。Stacking模型多数情况下分为两层,首先在第一层训练一组基学习器,然后将第一层基学习器的输出和期望的样本标签看作是新的学习任务,通过机器学习或者其他策略训练一个新的模型,次级学习器的输入是基学习器的输出,最后得到一个最终输出。Stacking集成学习方法的过程如图2-4所示。图2-4Stacking集成学习方法示意图2.2.5类别平衡化算法电信客户流失预测的数据集会存在类别不平衡的问题。由于大多数算法是基于统计学和概率论的特点,导致模型训练时会偏向类别数量较多的类,导致学习算法不能完整地学习到数据特征,从而无法提高预测准确率。在现有的研究中,类别平衡化的方法大
【参考文献】:
期刊论文
[1]改进的K-means算法研究[J]. 韩琮师,李旭健. 软件. 2020(03)
[2]基于深度神经网络的客户流失预测模型[J]. 马文斌,夏国恩. 计算机技术与发展. 2019(09)
[3]基于评论情感倾向和神经网络的客户流失预测研究[J]. 冯鑫,王晨,刘苑,杨娅,安海岗. 中国电子科学研究院学报. 2018(03)
[4]基于聚类中心优化的k-means最佳聚类数确定方法[J]. 贾瑞玉,宋建林. 微电子学与计算机. 2016(05)
[5]基于改进K-means算法的RFAT客户细分研究[J]. 刘芝怡,陈功. 南京理工大学学报. 2014(04)
[6]基于遗传算法和BP神经网络的多维客户行为细分模型的研究[J]. 王光辉,张晓光,赵艳芹. 齐齐哈尔大学学报(自然科学版). 2014(04)
[7]基于改进聚类的电信客户流失预测分析[J]. 姜晓娟,郭一娜. 太原理工大学学报. 2014(04)
[8]一种基于社会网络的潜在流失客户发现方法[J]. 黄婉秋. 北京交通大学学报. 2014(03)
[9]随机森林模型在分类与回归分析中的应用[J]. 李欣海. 应用昆虫学报. 2013(04)
[10]基于朴素贝叶斯算法的证券业客户价值细分研究[J]. 王园,李少峰,王永梅,欧冰臻,王秋明,林巧明. 科技和产业. 2013(05)
硕士论文
[1]基于Stacking的P2P贷款违约预测模型构建及应用[D]. 王竟羽.成都理工大学 2019
[2]基于Stacking集成学习的浙江移动公司客户流失分层预测研究[D]. 汪贝贝.浙江工商大学 2018
[3]移动互联网背景下客户流失预测研究[D]. 李衍.厦门大学 2018
[4]基于随机森林的电信客户流失预测应用研究[D]. 邱伟.华南理工大学 2018
[5]客户价值聚类与流失预测系统的设计与实现[D]. 孟翔宇.华中科技大学 2018
[6]基于数据挖掘的烟草零售客户聚类细分研究[D]. 林宗.浙江工业大学 2016
[7]基于数据挖掘方法的客户细分及流失预测[D]. 王喆.北京理工大学 2016
[8]基于改进的K-means算法的银行客户聚类研究[D]. 刘玥.吉林大学 2016
[9]基于神经网络算法构建电信用户流失预测模型的研究[D]. 孙碧颖.兰州大学 2016
[10]基于大数据的客户细分模型及精确营销策略研究[D]. 杨茜.南京邮电大学 2015
本文编号:3445084
本文链接:https://www.wllwen.com/jingjilunwen/xmjj/3445084.html