随机森林在电信行业客户流失预测中的应用
发布时间:2020-06-20 03:57
【摘要】: 随着通讯工具的日益普及,电信行业之间争取客户、扩大市场份额的竞争日益激烈。按照最新电信行业成本结构核算,流失一个已有客户的代价是发展一个新客户所带来利润的5倍。因此在日趋饱和的客户市场中,如何预测客户的流失成为工作的重中之重。 电信行业的数据具有海量且随时间递增的特点,而随机森林(RF,RandomForest)能有效地处理大数据集,且具有容噪性较好的特点。因此,本课题将其引入福建移动某地区分公司的客户流失预测中。 本文首先利用随机森林算法建立电信行业客户流失预测的初步模型。在原始数据预处理方面,我们利用RF算法定义的异常样本度量尺度来检测异常样本,并通过和其他两种主流异常样本检测方法的对比,来说明随机森林提供的异样样本检测方法的优越性。利用这个方法剔除电信行业客户数据中部分明显异常的样本,然后利用RF算法建立初步的流失预测模型,并与移动经营分析系统自身提供的模型进行对比,证明RF算法的良好性能。 本文还利用RF提供的用于衡量样本间相似程度的相似性矩阵(proximitymatrix)进行特征映射,进而得到每个样本基于该矩阵的放缩坐标,并用该坐标来近似表示样本集所包含的信息。结合转导推理思想,本文提出了一种基于随机森林坐标放缩的降维转导方法。对于标准数据库的实验表明,这样的降维转导方法简单有效,并且能够较大程度地表达出样本间信息,是一种良好的维归约方法。 在此基础上,通过引入基于马氏距离的超椭球K均值聚类(HCkmean-in-RF)算法,我们进一步改进客户流失预测模型的性能。大量的仿真结果表明,改进的流失预测模型具有较好的预测准确率、以及针对预测结果的部分可解释性。新模型的预测结果可以进行解释分析,能针对不同类型的可能流失客户给出相应的挽留措施,从而有望成为电信行业客户流失预测研究领域的一种强有力的备选方案。
【学位授予单位】:厦门大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:F626;TP18
本文编号:2721830
【学位授予单位】:厦门大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:F626;TP18
【引证文献】
相关期刊论文 前1条
1 李素清;王洪礼;;基于规则集成和RFA的中铁十三局发展预测研究[J];天津大学学报(社会科学版);2012年06期
相关硕士学位论文 前8条
1 张艳翠;基于BLB方法的随机森林算法研究及应用[D];山东科技大学;2017年
2 汪克高;贵州省精准扶贫中贫困户的识别研究[D];贵州财经大学;2016年
3 严莲;商业银信用卡信用风险评估研究[D];安徽大学;2016年
4 马永强;基于回归森林的车载INS/GPS组合导航系统设计[D];北京交通大学;2015年
5 李贞贵;随机森林改进的若干研究[D];厦门大学;2013年
6 刘程;基于随机森林的新闻网页分类系统应用研究[D];西南财经大学;2013年
7 杨沐f^;基于随机森林模型的二手房价格评估研究[D];中南大学;2012年
8 王莉;基于转导推理思想的一致性预测器[D];中国海洋大学;2011年
本文编号:2721830
本文链接:https://www.wllwen.com/jingjilunwen/xxjj/2721830.html