基于Hadoop的并行算法在预测客户流失中的研究

发布时间:2017-12-23 08:05

  本文关键词:基于Hadoop的并行算法在预测客户流失中的研究 出处:《江苏大学》2017年硕士论文 论文类型:学位论文


  更多相关文章: 客户流失 不平衡数据 支持向量机 差分进化 Hadoop


【摘要】:随着通信业的高速发展,用户数量经过一段时间的爆发性增长,目前新客户的增加有所放缓。由于各家运营商间激烈的竞争,导致各家运营商都需要考虑如何降低客户流失率给自身带来的影响。因此,如何根据客户的历史数据预测出即将有可能流失的客户并采取有效挽留措施成为各运营商的迫切需求。预测出有流失倾向的客户其实是一个二值分类问题,本文所采用的分类算法是支持向量机——SVM,SVM在二值分类学习任务中有着很好的泛化能力。但是有流失倾向的客户在整个运营商客户中只占一小部分,属于不平衡数据。这给传统的分类算法带来一定的困难,分类结果会向数量多的类偏倚。因此,本文所做的工作是改进SVM算法使其适用于不平衡数据。同时,为了更好地适应今后对大量数据的处理,本文基于Hadoop平台的MapReduce框架对上述算法进行了并行化处理。SVM通过创建一个线性边界,对数据分类。当数据线性不可分时,SVM利用核函数将数据从低维映射到高维空间,从而将数据变得线性可分。然而在面对不平衡数据时,即要研究的数据在整个数据中占比很小的情况下,SVM会向数量多的类偏倚,分类效果并不是很好。针对这个问题,本文了提出DE-C-SVM算法,结合代价敏感算法对错分为不同类别赋予不同的惩罚因子,对少数类的错分赋予较高惩罚因子,以最小化全局错分代价为目标,再利用差分进化算法对惩罚因子和核函数参数进行优化得到最佳参数,从而提升算法的分类性能。本文选取UCI数据集中的8种不平衡数据作为实验数据,并验证了该算法的有效性。接着对该算法进行了并行化处理,在Hadoop平台和单机下进行可扩展性实验以及Hadoop平台下进行加速比实验,实验结果表明基于Hadoop平台的算法可以很好地提升数据处理效率。最后,本文基于Hadoop平台搭建了预测客户流失模型。客户数据选取自某运营商,在对客户数据进行预处理之后运用到预测客户流失模型中。实验结果显示该模型在得到较好预测效果的同时可以提升数据处理效率,从而提升运营商决策的效率,对运营商的日常运营有重要的现实意义。
【学位授予单位】:江苏大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13

【参考文献】

相关期刊论文 前10条

1 夏靖波;韦泽鲲;付凯;陈珍;;云计算中Hadoop技术研究与应用综述[J];计算机科学;2016年11期

2 刘凌;郭剑;韩崇;;面向不平衡数据的模糊支持向量机[J];计算机技术与发展;2015年11期

3 魏浩;丁要军;;一种基于相关的属性选择改进算法[J];计算机应用与软件;2014年08期

4 文波;单甘霖;段修生;;基于KKT条件与壳向量的增量学习算法研究[J];计算机科学;2013年03期

5 王红艳;;一种基于Hadoop架构的网络安全事件分析方法[J];信息网络安全;2013年01期

6 孙凯;王颖龙;;支持向量机中Mercer核函数的构造研究[J];兵工自动化;2008年11期

7 陈果;周伽;;小样本数据的支持向量机回归模型参数及预测区间研究[J];计量学报;2008年01期

8 夏国恩;金炜东;;基于支持向量机的客户流失预测模型[J];系统工程理论与实践;2008年01期

9 陈果;;一种实现结构风险最小化思想的结构自适应神经网络模型[J];仪器仪表学报;2007年10期

10 刘继海;陈晓剑;;SVM模型在信用卡申请管理中的创新应用[J];哈尔滨工业大学学报(社会科学版);2007年04期

相关博士学位论文 前6条

1 刘国安;基于云理论的差分进化算法改进及应用研究[D];哈尔滨工程大学;2012年

2 康宁;航天测控优化调度模型及其拉格朗日松弛求解算法[D];国防科学技术大学;2011年

3 师金钢;基于MapReduce架构的实时数据仓库关键技术研究[D];东北大学;2011年

4 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年

5 杨智明;面向不平衡数据的支持向量机分类方法研究[D];哈尔滨工业大学;2009年

6 徐图;超球体多类支持向量机及其在DDoS攻击检测中的应用[D];西南交通大学;2008年

相关硕士学位论文 前10条

1 邹振宇;基于HDFS的云存储系统的实现与优化[D];中国科学技术大学;2016年

2 罗伟;前视车辆检测及定位算法研究与实现[D];电子科技大学;2015年

3 束诗雨;基于集成学习的支持向量机预测优化算法及其应用[D];东华大学;2015年

4 谢恒;分布式环境下计算结果重用的研究与实现[D];东华大学;2015年

5 丰文安;机场噪声预测SVR增量模型研究[D];南京航空航天大学;2015年

6 程伟;基于半监督SVM的非平衡学习[D];西安电子科技大学;2014年

7 陈旭;基于Hadoop的海量小文件处理技术研究[D];电子科技大学;2014年

8 孙娜娜;拉格朗日乘子估计在MIMO检测中的应用[D];大连理工大学;2014年

9 李延光;基于Hadoop的海量工程数据处理技术研究[D];北京交通大学;2013年

10 赵淑娟;基于非对称加权和核方法的不平衡数据集算法研究[D];南京邮电大学;2013年



本文编号:1323075

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1323075.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4ccdb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com