分层次电信客户流失预测研究
发布时间:2022-01-19 11:19
随着近年来电信行业市场逐渐饱和,国内三大运营商之间的竞争日益激烈,导致客户的流失率居高不下,降低客户流失率成了运营商亟待处理的一大难题。据研究表明运营商开发一名新用户的成本是维系一名老用户的6倍,且高价值的老用户给公司带来的收益明显高于新客户,因此维系客户、减少客户流失越来越受到各大运营商的重视。新用户相对于老用户更容易流失,两种类型用户的流失影响因素也存在差异,本文重点从客户存留时间切入,分短期和长期两方面研究用户流失问题。对于短期内流失用户,重点为准确预测有离网倾向的用户,缩短观察周期,以便及时采取挽留措施;对于长期在网用户,关注其留存时间、流失风险概率和主要影响因素,采取持续性政策维系客户。本文主要工作包括:(1)分析客户流失问题现状和研究方法,探讨问题研究的不同角度。(2)在数据准备方面,以某省电信用户为研究对象,分别获取短期数据和长期数据,基于日指标和月指标重点设计组合特征,并进行基本数据预处理;特征选择方面,针对各自模型特点,采用不同的特征筛选方法。(3)对于短期客户流失问题,选用逻辑回归、支持向量机、随机森林、lightGBM四种数据挖掘方法构建短期客户流失预警模型,进行...
【文章来源】:福建师范大学福建省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
数据挖掘流程
福建师范大学硕士学位论文10数据准备:首先进行数据采集,提取出目标数据,再做数据的预处理,包括清洗、合并、转化等内容,保证数据质量。模型构建:基于处理后数据,结合业务实际,分析不同算法的优劣势、选取合适的算法构建挖掘模型。方案评估:通过对整体实施流程的梳理以及模型的效果评估,确定方案对于实际需求的可行性。方案实施:确认方案以后,将方案投入到实际应用。图1-1数据挖掘流程三、集成学习理论集成学习是指用一系列“弱学习器”,通过某种策略整合成“强学习器”。通过对多个学习器的整合得到的新模型往往具有更好的性能。首先训练单个基学习器,然后基于算法将每个学习器的结果汇总输出,如图1-2所示。图1-2集成学习过程
第二章数据处理与特征选择13第二章数据处理与特征选择第一节数据介绍一、数据来源本文研究数据源自中国移动A省大数据中心,共计两份,分别用于研究短期客户和长期客户的流失问题。短期数据:从图2-1可以看出,新入网用户在一个月以后离网比例明显上升,为缩短观察期,并充分获取客户业务行为数据,选择入网时长大于一个月且小于两个月的用户数据作为短期数据。研究对象为2018年6月份新入网用户,删除前30天离网用户和一些特殊用户如养卡用户、非自然人,主要提取用户基本属性以及从入网日起‘当天’,‘前3天’、‘前7天’、‘前15天’、‘前30天’的业务特征、行为特征等字段,例如用户6月1号入网,‘当天’是指6月1号数据,‘前3天’是指6月1号-3号数据,如果用户6月5号入网,当天是值,6月5号数据,‘前3天’是指6月5号-7号数据。共获取数据500000条,样本含76个字段。图2-1六月份入网用户在网天数分布长期数据:考虑到用户优惠政策、合约情况,选择入网时长大于一年的用户数据作为长期数据。研究对象为截止2018年8月31日入网时长一年以上的用户,以8月31日为统计日,删除特殊用户如养卡用户、非自然人,主要提取用户基本属性以及统计日‘当月’,‘近3月’的业务特征、行为特征等字段,‘当月’是指8月份数据,‘近3月’是指6、7、8月份的数据,共获取数据500000条,样本含52个字段。
【参考文献】:
期刊论文
[1]基于LightGBM算法的P2P项目信用评级模型的设计及应用[J]. 马晓君,沙靖岚,牛雪琪. 数量经济技术经济研究. 2018(05)
[2]基于生存分析模型的电信客户流失研究[J]. 张珠香,骆念蓓. 福州大学学报(哲学社会科学版). 2018(01)
[3]基于变精度加权平均粗糙度决策树的财务预警研究[J]. 鲍新中,傅宏宇. 运筹与管理. 2015(03)
[4]基于数据挖掘的固网大客户流失组合预警[J]. 何跃,何正林,周欣胤. 软科学. 2012(01)
[5]基于LVQ神经网络的电信企业客户流失预测模型研究[J]. 代逸生,杨永升. 价值工程. 2011(13)
[6]基于Cox模型的移动通信行业中低端客户流失预测研究[J]. 邓森文,马溪骏. 合肥工业大学学报(自然科学版). 2010(11)
[7]中国电信市场的去垄断改革与技术进步[J]. 高锡荣. 经济科学. 2008(06)
[8]电信重组后三大运营商竞争形势分析[J]. 杜振华. 移动通信. 2008(19)
[9]基于改进支持向量机的客户流失分析研究[J]. 赵宇,李兵,李秀,刘文煌,任守榘. 计算机集成制造系统. 2007(01)
[10]生存分析在电信增值服务行业客户流失分析中的应用[J]. 刘绍清,黄章树. 广州大学学报(自然科学版). 2006(06)
硕士论文
[1]基于数据挖掘的模具业客户流失分析[D]. 危虎.广东工业大学 2014
[2]基于生存分析的客户流失模型研究[D]. 郑为益.华南理工大学 2011
[3]电信企业客户关系生存分析模型研究[D]. 张永乐.北京邮电大学 2009
本文编号:3596759
【文章来源】:福建师范大学福建省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
数据挖掘流程
福建师范大学硕士学位论文10数据准备:首先进行数据采集,提取出目标数据,再做数据的预处理,包括清洗、合并、转化等内容,保证数据质量。模型构建:基于处理后数据,结合业务实际,分析不同算法的优劣势、选取合适的算法构建挖掘模型。方案评估:通过对整体实施流程的梳理以及模型的效果评估,确定方案对于实际需求的可行性。方案实施:确认方案以后,将方案投入到实际应用。图1-1数据挖掘流程三、集成学习理论集成学习是指用一系列“弱学习器”,通过某种策略整合成“强学习器”。通过对多个学习器的整合得到的新模型往往具有更好的性能。首先训练单个基学习器,然后基于算法将每个学习器的结果汇总输出,如图1-2所示。图1-2集成学习过程
第二章数据处理与特征选择13第二章数据处理与特征选择第一节数据介绍一、数据来源本文研究数据源自中国移动A省大数据中心,共计两份,分别用于研究短期客户和长期客户的流失问题。短期数据:从图2-1可以看出,新入网用户在一个月以后离网比例明显上升,为缩短观察期,并充分获取客户业务行为数据,选择入网时长大于一个月且小于两个月的用户数据作为短期数据。研究对象为2018年6月份新入网用户,删除前30天离网用户和一些特殊用户如养卡用户、非自然人,主要提取用户基本属性以及从入网日起‘当天’,‘前3天’、‘前7天’、‘前15天’、‘前30天’的业务特征、行为特征等字段,例如用户6月1号入网,‘当天’是指6月1号数据,‘前3天’是指6月1号-3号数据,如果用户6月5号入网,当天是值,6月5号数据,‘前3天’是指6月5号-7号数据。共获取数据500000条,样本含76个字段。图2-1六月份入网用户在网天数分布长期数据:考虑到用户优惠政策、合约情况,选择入网时长大于一年的用户数据作为长期数据。研究对象为截止2018年8月31日入网时长一年以上的用户,以8月31日为统计日,删除特殊用户如养卡用户、非自然人,主要提取用户基本属性以及统计日‘当月’,‘近3月’的业务特征、行为特征等字段,‘当月’是指8月份数据,‘近3月’是指6、7、8月份的数据,共获取数据500000条,样本含52个字段。
【参考文献】:
期刊论文
[1]基于LightGBM算法的P2P项目信用评级模型的设计及应用[J]. 马晓君,沙靖岚,牛雪琪. 数量经济技术经济研究. 2018(05)
[2]基于生存分析模型的电信客户流失研究[J]. 张珠香,骆念蓓. 福州大学学报(哲学社会科学版). 2018(01)
[3]基于变精度加权平均粗糙度决策树的财务预警研究[J]. 鲍新中,傅宏宇. 运筹与管理. 2015(03)
[4]基于数据挖掘的固网大客户流失组合预警[J]. 何跃,何正林,周欣胤. 软科学. 2012(01)
[5]基于LVQ神经网络的电信企业客户流失预测模型研究[J]. 代逸生,杨永升. 价值工程. 2011(13)
[6]基于Cox模型的移动通信行业中低端客户流失预测研究[J]. 邓森文,马溪骏. 合肥工业大学学报(自然科学版). 2010(11)
[7]中国电信市场的去垄断改革与技术进步[J]. 高锡荣. 经济科学. 2008(06)
[8]电信重组后三大运营商竞争形势分析[J]. 杜振华. 移动通信. 2008(19)
[9]基于改进支持向量机的客户流失分析研究[J]. 赵宇,李兵,李秀,刘文煌,任守榘. 计算机集成制造系统. 2007(01)
[10]生存分析在电信增值服务行业客户流失分析中的应用[J]. 刘绍清,黄章树. 广州大学学报(自然科学版). 2006(06)
硕士论文
[1]基于数据挖掘的模具业客户流失分析[D]. 危虎.广东工业大学 2014
[2]基于生存分析的客户流失模型研究[D]. 郑为益.华南理工大学 2011
[3]电信企业客户关系生存分析模型研究[D]. 张永乐.北京邮电大学 2009
本文编号:3596759
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3596759.html