数据挖掘在电信客户分析中的应用研究
本文选题:客户流失预测 + 不平衡数据 ; 参考:《西安理工大学》2016年硕士论文
【摘要】:随着2013年底4G牌照的发放,三大电信运营商开启了更为激烈的用户市场竞争,纷纷使用不同的营销手段来吸引新客户,这也必然导致了客户状态的不稳定以及大量客户的流失。而客户流失又会造成运营商的市场占有率下降,直接给电信企业造成经济损失,因此对电信客户进行流失预测具有重要的实际意义。某地联通公司数据库中已存储大量客户数据,现需要利用这些数据进行客户的流失预测分析。本课题结合实际情况,主要工作如下:1.从电信客户流失原因、流失预测属性的选取以及预测算法模型的选取三方面详细分析了国内外学者的研究成果。2.通过对真实数据的分析研究,发现流失客户数量仅占总客户数量的7%左右,数据分布存在严重的不平衡性,这对于后期的建模预测有很大影响。为了解决此问题,采用欠抽样的方法对原始数据进行了处理。首先对训练数据集进行不同比例的欠抽样处理,然后分别采用C5.0决策树、神经网络和Logistic回归算法进行建模分析。3.由于单一的分类算法都有其自身的优点和缺陷,能够利用的数据信息非常有限。针对这一问题,采用不同分类器组合的预测方法进行客户流失预测研究。选择C5.0决策树、神经网络和Logistic回归算法作为子分类器。在计算各个子分类器的权重系数时,以组合预测误差平方和最小为准则,构建Lagrange方程。4.使用组合预测的方法对某联通公司的客户数据进行了流失预测建模,找出了潜在的流失客户,为企业进行客户挽留决策提供了依据。综上所述,本文首先通过对数据进行欠抽样处理之后,发现模型的分类预测效果确实有所提高,并且不同分类算法对抽样比例的要求是不同的。采用组合预测方法对客户数据进行流失预测建模,结果表明其预测效果比较好,因此在实际应用中是有意义的。
[Abstract]:With the issuance of 4G licences at the end of 2013, the three telecom operators have opened up more intense competition in the user market, using different marketing methods to attract new customers, which will inevitably lead to unstable customer status and the loss of a large number of customers. The loss of customers will lead to the decline of market share of operators and directly to the economic losses of telecom enterprises, so it is of great practical significance to forecast the loss of telecom customers. A large number of customer data have been stored in the database of a local Unicom, which need to be used for customer churn prediction and analysis. This subject combines the actual situation, the main work is as follows: 1. This paper analyzes the research results of domestic and foreign scholars in detail from three aspects: the reasons of telecom customer churn, the selection of loss prediction attributes and the selection of prediction algorithm model. Through the analysis of the real data, it is found that the number of lost customers is only about 7% of the total number of customers, and the distribution of the data is seriously unbalanced, which has a great impact on the modeling and prediction of the later period. In order to solve this problem, the method of under-sampling is used to deal with the original data. Firstly, the training data sets are processed with different proportions of under-sampling, and then C5.0 decision tree, neural network and Logistic regression algorithm are used to model and analyze. Because the single classification algorithm has its own advantages and disadvantages, the data information that can be used is very limited. In order to solve this problem, different classifier combinations are used to predict customer churn. C5.0 decision tree, neural network and Logistic regression algorithm are selected as subclassifiers. When calculating the weight coefficients of each subclassifier, the Lagrange equation. 4. 4 is constructed based on the least square sum of combined prediction errors. By using the method of combination prediction, the loss prediction model of customer data of a certain Unicom company is established, and the potential lost customers are found out, which provides a basis for enterprises to make customer retention decisions. To sum up, after processing the data under sampling, we find that the classification and prediction effect of the model has been improved, and different classification algorithms have different requirements for sampling ratio. The combined forecasting method is used to predict the loss of customer data. The results show that the forecasting effect is good, so it is meaningful in practical application.
【学位授予单位】:西安理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:F626;TP311.13
【参考文献】
相关期刊论文 前10条
1 宋凯;王开祥;;关联规则在电信业务交叉销售中的应用[J];沈阳理工大学学报;2015年04期
2 杨婷;滕少华;;改进的贝叶斯分类方法在电信客户流失中的研究与应用[J];广东工业大学学报;2015年03期
3 付杰;方芳;严克文;;基于Logistic回归的通信业客户流失预测与挽留研究[J];鄂州大学学报;2015年06期
4 汤加挺;颜小灵;;浅谈数据挖掘技术在各行业中的应用[J];电子制作;2015年10期
5 陈晔;覃晓群;;基于组合预测的电信客户流失预测[J];计算机与数字工程;2015年04期
6 韩芳;孙立民;;不平衡样本集分类算法研究[J];计算机应用研究;2015年08期
7 张宇;张之明;;一种基于C5.0决策树的客户流失预测模型研究[J];统计与信息论坛;2015年01期
8 邱一卉;;基于剪枝随机森林的电信行业客户流失预测[J];厦门大学学报(自然科学版);2014年06期
9 张玮;杨善林;刘婷婷;;基于CART和自适应Boosting算法的移动通信企业客户流失预测模型[J];中国管理科学;2014年10期
10 职为梅;郭华平;张银峰;范明;;一种面向非平衡数据集分类问题的组合选择方法[J];小型微型计算机系统;2014年04期
相关博士学位论文 前1条
1 迟准;电信运营企业客户流失预测与评价研究[D];哈尔滨工程大学;2013年
相关硕士学位论文 前7条
1 杨婷;模糊贝叶斯网络在电信客户流失分析中的研究与应用[D];广东工业大学;2014年
2 伏奕帆;基于SVM的电信客户欺诈检测技术应用研究[D];湖南大学;2011年
3 黄展辉;基于数据挖掘的电信客户流失分析[D];广东工业大学;2011年
4 石瀚凌;基于集成代价敏感分类方法的客户流失预测研究[D];重庆大学;2011年
5 陈晔;基于组合预测的电信客户流失预测分析[D];湖南大学;2011年
6 张瑜;支持向量机在电信客户欺诈检测的应用研究[D];长沙理工大学;2010年
7 罗巧玲;面向客户流失预测的关联规则挖掘算法应用研究[D];河北工业大学;2007年
,本文编号:1927774
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1927774.html