基于Lasso和RBF的客户流失预测模型研究
发布时间:2021-09-04 12:47
日益趋于饱和的市场导致企业扩大其市场份额变得愈发困难,企业客户的增长要消耗企业更多的成本。因此,如何稳定存量客户已然成为企业的关注目标。存量老客户的流失,不仅给企业带来巨大的经济损失,还能减弱企业的社会影响力。因此,提前对企业客户进行流失预测,提出有针对性的营销策略,将成为挽留客户、保持业务稳定发展的主要抓手。现如今,大数据分析技术得到了广泛应用,企业利用其数据资产指导经营决策成为必然。在客户流失预测过程中,通过对特征维度高、特征动态变化且数据不均衡等复杂大数据场景进行建模分析,准确地预测客户流失的倾向,以为企业营销策略提供有效依据。论文提出基于Lasso回归的RBF优化模型,结合客户生命周期,建立客户流失预测模型,并基于某银行公开数据集和某地州电信企业的脱敏数据集对模型进行验证。论文主要工作包括:1.针对客户数据信息中流失客户与非流失客户数据严重不平衡、客户数据特征维度高、特征值动态变化等问题,提出基于Lasso回归的RBF优化模型L-RBF。该模型利用混合采样方式平衡数据集,从而提高目标识别率;为提高模型的灵活性、通用性和预测效果,进一步构建了RBF神经网络算法参数模型。通过与Lo...
【文章来源】:重庆邮电大学重庆市
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
客户流失预测分析完整框架图
据的基本结构形式、处理方式都不相同[39]。此外,数据通常都是不完整的(可能缺少某些使用者感兴趣的数据属性或属性值)、不一致的(可能包含代码或者数据源名称的差异)、极易丢失或者受到噪声(可能是错误或异常值)的侵扰的。因此,在面对这种来自多个异种类型数据源的复杂数据集时,如果不对这些数据进行高质量的预处理,则这些低质量的数据将严重地导致低质量的数据挖掘结果,甚至可能无法有效地进行建模分析。所以在进行分析建模前首先需要对数据进行预处理,这是保证结果正确性的非常重要的一步。数据预处理步骤如图2.2所示:图2.2数据与处理过程图1.数据集成:将多张关联数据信息表的数据合并成一个一致的数据集存储。2.数据清理:将错误的、冗余的、缺失的、噪音的数据信息进行清除。3.数据规约:通过数据聚集、删除冗余特征等方式来大幅降低数据的规模。4.数据变换:把业务的原始数据转换成一种适合数据分析的形式。本文中对数据互斥的属性采用二进制码替换。为了消除不同业务数据值之间因单位不同导致的量纲问题,本文采用z-score[38]对量纲数据进行归一化的处理,如公式(2.1):z= $%$&(2.1)其中x、δ分别为原始数据集的均值和方差。2.1.2特征提取特征提取作为数据分析技术应用中一个重要的研究问题。特征提取的主要目的是从原始的数据中选取出与表示样本特性的相关数据信息。由于互联网的快速发展以及产品业务的高速扩张,每一个数据都可以从任意一个角度增加新的特征标签。在设计和构建模型的过程中,过大特征维度的数据,不仅大大增加了数据预处理的
重庆邮电大学硕士学位论文第2章相关理论与技术分析142.2.2DBSCAN密度聚类DBSCAN[51,52]聚类算法是一种较具有代表性的基于样本密度的非线性聚类算法,采用密度空间索引技术来快速搜索该假定对象的邻域,可快速发现任意形状的簇,能够有效地排除噪声点和离群点。这类非线性密度聚类算法一般假设类别可以通过样本分布的密集程度进行决定,同一类别的样本,他们之间的紧密程度是相连的,也就是说,在该假定类别任意一个样本周围不远处一定范围内会有同类别的样本存在。DBSCAN算法示意图如2.3所示。图2.3DBSCAN算法示意图DBSCAN算法中的几个定义:1.E邻域:给定样本点半径为Eps内的区域称为该样本点的E邻域;2.核心点:如果存在给定一个样本点,并且在E邻域内的样本点数大于等于MinPts,则称该样本点为核心点(Corepoint);3.边界对象:样本点的E邻域内包含的样本数小于MinPts,但它又在其他核心点的邻域内,则称该样本点为边界点(Borderpoint);4.噪音点:既不是核心点也不是边界点的样本点;5.k-距离:给定数据集Ρ=pi,i=0,1,…,n,n为样本点数。对于任意点pi,按式(2.5)计算点pi到集合D的子集 S=p0,p1,..,pi1,pi+1,…,pn中所有点之间的欧式距离,距离按照从小到大的顺序排序,假设排序后的距离集合为D=d1,d2,..,dk1,dk,dk+1,…,dn,则dk就被称为k-距离。di,j= x2y23+x3y33++x`y`3(2.5)
【参考文献】:
期刊论文
[1]中国货币政策的有效性评估——基于皮尔森相关系数的分析[J]. 陈志方. 中国商论. 2020(06)
[2]人力资源是企业的核心竞争力[J]. 王怡人. 现代营销(信息版). 2019(07)
[3]基于决策树模型分类多时相早稻信息提取研究[J]. 吕红梅,李栩滨. 福建地质. 2019(02)
[4]运营商自营厅的转型之路[J]. 邱慧华,徐文龙. 通信企业管理. 2019(05)
[5]客户关系管理在企业营销管理中的应用[J]. 孟佳鑫. 智富时代. 2019(03)
[6]改进多分类支持向量机的配电网故障识别方法[J]. 洪翠,付宇泽,郭谋发,白蔚楠. 电子测量与仪器学报. 2019(01)
[7]全媒体时代现场报道新形式探索[J]. 阳玉明. 科技传播. 2018(22)
[8]工信部:国内4G用户已达11.5亿户[J]. 电子技术与软件工程. 2018(22)
[9]BP和RBF神经网络在函数逼近上的对比与研究[J]. 张志勰,虞旦. 工业控制计算机. 2018(05)
[10]客户流失管理研究现状及展望[J]. 张珠香,骆念蓓. 计算机系统应用. 2017(12)
硕士论文
[1]基于数据挖掘的运营商用户流失预测研究与应用[D]. 林小榕.北京交通大学 2019
[2]基于少数类样本重组的不平衡数据分类研究[D]. 李轩.湖南大学 2016
[3]基于数据仓库的客户关系管理系统研究[D]. 徐璐.南昌大学 2015
[4]电信客户生命周期价值模型及在客户细分中的应用研究[D]. 邓洁君.四川大学 2007
[5]带弹性网的稀疏主成分分析[D]. 张勇进.华中科技大学 2006
本文编号:3383293
【文章来源】:重庆邮电大学重庆市
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
客户流失预测分析完整框架图
据的基本结构形式、处理方式都不相同[39]。此外,数据通常都是不完整的(可能缺少某些使用者感兴趣的数据属性或属性值)、不一致的(可能包含代码或者数据源名称的差异)、极易丢失或者受到噪声(可能是错误或异常值)的侵扰的。因此,在面对这种来自多个异种类型数据源的复杂数据集时,如果不对这些数据进行高质量的预处理,则这些低质量的数据将严重地导致低质量的数据挖掘结果,甚至可能无法有效地进行建模分析。所以在进行分析建模前首先需要对数据进行预处理,这是保证结果正确性的非常重要的一步。数据预处理步骤如图2.2所示:图2.2数据与处理过程图1.数据集成:将多张关联数据信息表的数据合并成一个一致的数据集存储。2.数据清理:将错误的、冗余的、缺失的、噪音的数据信息进行清除。3.数据规约:通过数据聚集、删除冗余特征等方式来大幅降低数据的规模。4.数据变换:把业务的原始数据转换成一种适合数据分析的形式。本文中对数据互斥的属性采用二进制码替换。为了消除不同业务数据值之间因单位不同导致的量纲问题,本文采用z-score[38]对量纲数据进行归一化的处理,如公式(2.1):z= $%$&(2.1)其中x、δ分别为原始数据集的均值和方差。2.1.2特征提取特征提取作为数据分析技术应用中一个重要的研究问题。特征提取的主要目的是从原始的数据中选取出与表示样本特性的相关数据信息。由于互联网的快速发展以及产品业务的高速扩张,每一个数据都可以从任意一个角度增加新的特征标签。在设计和构建模型的过程中,过大特征维度的数据,不仅大大增加了数据预处理的
重庆邮电大学硕士学位论文第2章相关理论与技术分析142.2.2DBSCAN密度聚类DBSCAN[51,52]聚类算法是一种较具有代表性的基于样本密度的非线性聚类算法,采用密度空间索引技术来快速搜索该假定对象的邻域,可快速发现任意形状的簇,能够有效地排除噪声点和离群点。这类非线性密度聚类算法一般假设类别可以通过样本分布的密集程度进行决定,同一类别的样本,他们之间的紧密程度是相连的,也就是说,在该假定类别任意一个样本周围不远处一定范围内会有同类别的样本存在。DBSCAN算法示意图如2.3所示。图2.3DBSCAN算法示意图DBSCAN算法中的几个定义:1.E邻域:给定样本点半径为Eps内的区域称为该样本点的E邻域;2.核心点:如果存在给定一个样本点,并且在E邻域内的样本点数大于等于MinPts,则称该样本点为核心点(Corepoint);3.边界对象:样本点的E邻域内包含的样本数小于MinPts,但它又在其他核心点的邻域内,则称该样本点为边界点(Borderpoint);4.噪音点:既不是核心点也不是边界点的样本点;5.k-距离:给定数据集Ρ=pi,i=0,1,…,n,n为样本点数。对于任意点pi,按式(2.5)计算点pi到集合D的子集 S=p0,p1,..,pi1,pi+1,…,pn中所有点之间的欧式距离,距离按照从小到大的顺序排序,假设排序后的距离集合为D=d1,d2,..,dk1,dk,dk+1,…,dn,则dk就被称为k-距离。di,j= x2y23+x3y33++x`y`3(2.5)
【参考文献】:
期刊论文
[1]中国货币政策的有效性评估——基于皮尔森相关系数的分析[J]. 陈志方. 中国商论. 2020(06)
[2]人力资源是企业的核心竞争力[J]. 王怡人. 现代营销(信息版). 2019(07)
[3]基于决策树模型分类多时相早稻信息提取研究[J]. 吕红梅,李栩滨. 福建地质. 2019(02)
[4]运营商自营厅的转型之路[J]. 邱慧华,徐文龙. 通信企业管理. 2019(05)
[5]客户关系管理在企业营销管理中的应用[J]. 孟佳鑫. 智富时代. 2019(03)
[6]改进多分类支持向量机的配电网故障识别方法[J]. 洪翠,付宇泽,郭谋发,白蔚楠. 电子测量与仪器学报. 2019(01)
[7]全媒体时代现场报道新形式探索[J]. 阳玉明. 科技传播. 2018(22)
[8]工信部:国内4G用户已达11.5亿户[J]. 电子技术与软件工程. 2018(22)
[9]BP和RBF神经网络在函数逼近上的对比与研究[J]. 张志勰,虞旦. 工业控制计算机. 2018(05)
[10]客户流失管理研究现状及展望[J]. 张珠香,骆念蓓. 计算机系统应用. 2017(12)
硕士论文
[1]基于数据挖掘的运营商用户流失预测研究与应用[D]. 林小榕.北京交通大学 2019
[2]基于少数类样本重组的不平衡数据分类研究[D]. 李轩.湖南大学 2016
[3]基于数据仓库的客户关系管理系统研究[D]. 徐璐.南昌大学 2015
[4]电信客户生命周期价值模型及在客户细分中的应用研究[D]. 邓洁君.四川大学 2007
[5]带弹性网的稀疏主成分分析[D]. 张勇进.华中科技大学 2006
本文编号:3383293
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3383293.html
最近更新
教材专著