基于分步特征选择和组合分类器的电信客户流失预测模型
本文关键词:基于分步特征选择和组合分类器的电信客户流失预测模型,,由笔耕文化传播整理发布。
【摘要】:随着信息与通信技术的快速发展,电信运营市场日益饱和,运营商之间的竞争日趋加剧。客户流失预测已成为电信行业重点关注的一个问题,进行潜在流失客户的预测分析,及时发现具有较高流失概率的客户,并制定相应的客户挽留策略,对各大电信运营商来讲具有重大意义。本文以电信行业客户流失预测为研究背景,旨在构建一个高效、准确的电信客户流失预测模型,以高效、准确地预测出具有较高流失概率的客户。本文的主要研究内容与成果如下:1.本文针对电信客户流失数据集中存在的特征维度过高的问题,对比研究利用主成分分析、卡方检验和Fisher比率方法进行特征降维所选择的优化特征子集,采用大数据处理框架Spark与Spark机器学习库ML/MLlib进行实验,分析不同优化特征子集对朴素贝叶斯、线性支持向量机、逻辑斯蒂回归、决策树和随机森林分类模型预测效果的影响。实验结果表明,不同的特征选择方法所选的优化特征子集对不同分类模型预测效果的影响不同,其中Fisher比率能够选取相对最优的特征子集,并取得较好的预测效果。2.提出一种基于Fisher比率和预测风险准则的分步特征选择方法。本文针对电信客户流失领域特征选择方法存在的问题,结合过滤式和封装式特征选择方法的优点,提出了一种基于Fisher比率和预测风险准则的分步特征选择方法。基于该方法所选的优化特征子集具有较强的判别能力,同时对分类器预测效果影响较大。实验结果表明,相比于未进行特征选择和基于一步特征选择的客户流失预测模型,本文提出的基于分步特征选择方法的客户流失预测模型能够提高客户流失预测的准确性。3.提出一种基于分步特征选择和组合分类器的客户流失预测模型构建框架。结合Spark机器学习库ML/MLlib,构建基于分步特征选择方法的朴素贝叶斯、线性支持向量机、逻辑斯蒂回归、决策树和随机森林的客户流失预测模型。在此基础上,采用优选组合预测方法从多个分类预测模型中选取预测效果较好的若干分类器,并采用加权组合所选分类器输出值的方式构建组合分类器。实验结果表明,相对于单一分类模型的预测效果,本文提出的基于分步特征选择和组合分类器的客户流失预测模型能够显著提高流失预测效果。本文结合Spark大数据处理框架,针对电信客户流失数据集中存在的特征维度过高问题,对比研究利用主成分分析、卡方检验和Fisher比率选择的优化特征子集,分析不同优化特征子集对不同分类模型预测效果的影响。针对该领域特征选择存在的问题,结合过滤式和封装式特征选择方法的优点,提出了一种基于Fisher比率和预测风险准则的分步特征选择方法。在此基础上,提出了一种基于分步特征选择和组合分类器的电信客户流失预测模型。实验结果表明,相比于典型的特征选择方法,本文提出的基于Fisher比率和预测风险准则的分步特征选择方法提高了各分类模型的预测效果;基于分步特征选择与组合分类器的电信客户流失预测模型进一步提高了客户流失预测效果。
【关键词】:客户流失 大数据 Spark 类别不均衡 分步特征选择 组合分类器
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:F626;TP311.13
【目录】:
- 摘要5-7
- ABSTRACT7-11
- 第1章 绪论11-23
- 1.1 研究背景和意义11-13
- 1.2 数据挖掘技术在电信客户流失预测中的应用研究13-18
- 1.2.1 客户关系管理与客户流失预测分析13-14
- 1.2.2 数据挖掘与客户流失预测分析14-18
- 1.3 关键问题与研究内容18-20
- 1.4 本文组织结构20-23
- 第2章 相关技术研究23-37
- 2.1 客户流失相关技术简述23
- 2.2 大数据技术发展概况23-29
- 2.2.1 大数据简述23-25
- 2.2.2 大数据存储25-26
- 2.2.3 大数据挖掘26-29
- 2.3 不均衡分类问题研究29-32
- 2.3.1 不均衡分类问题简述29
- 2.3.2 基于数据层面的均衡化方法29-30
- 2.3.3 基于算法层面的不均衡分类方法30-32
- 2.4 特征选择策略研究32-36
- 2.4.1 特征选择简述32
- 2.4.2 基于搜索策略的特征选择32-34
- 2.4.3 基于评价准则的特征选择34-36
- 2.5 本章总结36-37
- 第3章 客户流失预测模型构建37-59
- 3.1 基本数据预处理38-42
- 3.1.1 数据获取与描述38-40
- 3.1.2 数据预处理40-42
- 3.2 特征选择方法42-43
- 3.3 分类模型与模型评估指标选择43-49
- 3.3.1 分类模型43-47
- 3.3.2 分类模型评估指标选择47-49
- 3.4 实验结果与分析49-57
- 3.4.1 基本数据预处理对分类模型预测效果的影响50-52
- 3.4.2 特征选择方法对分类模型预测效果的影响52-57
- 3.5 本章总结57-59
- 第4章 基于FR-PR和组合分类器的流失预测模型59-71
- 4.1 基于Fisher比率和预测风险准则的分步特征选择方法59-61
- 4.2 基于FR-PR和组合分类器的流失预测模型61-64
- 4.3 实验结果与分析64-70
- 4.3.1 分步特征选择方法对分类模型预测效果的影响64-68
- 4.3.2 分步特征选择和组合分类器对预测效果的影响68-70
- 4.4 本章总结70-71
- 第5章 总结与展望71-73
- 5.1 本文工作总结71-72
- 5.2 未来工作展望72-73
- 参考文献73-79
- 致谢79-81
- 在读期间发表的学术论文与取得的其他研究成果81
【相似文献】
中国期刊全文数据库 前10条
1 吉小军,李世中,李霆;相关分析在特征选择中的应用[J];测试技术学报;2001年01期
2 贾沛;桑农;唐红卫;;一种改进的类别依赖型特征选择技术[J];计算机与数子工程;2003年06期
3 靖红芳;王斌;杨雅辉;徐燕;;基于类别分布的特征选择框架[J];计算机研究与发展;2009年09期
4 吴洪丽;朱颢东;周瑞琼;;使用特征分辨率和差别对象对集的特征选择[J];计算机工程与应用;2010年16期
5 杨艺;韩德强;韩崇昭;;基于排序融合的特征选择[J];控制与决策;2011年03期
6 李云;;稳定的特征选择研究[J];微型机与应用;2012年15期
7 钱学双;多重筛选逐步回归特征选择法及其应用[J];信息与控制;1986年05期
8 宣国荣;柴佩琪;;基于巴氏距离的特征选择[J];模式识别与人工智能;1996年04期
9 范劲松,方廷健;特征选择和提取要素的分析及其评价[J];计算机工程与应用;2001年13期
10 王新峰;邱静;刘冠军;;基于特征相关性和冗余性分析的机械故障特征选择研究[J];中国机械工程;2006年04期
中国重要会议论文全文数据库 前10条
1 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 李长升;卢汉清;;排序学习模型中的特征选择[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
3 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 倪友平;王思臣;马桂珍;陈曾平;;分支界定算法在低分辨雷达飞机架次判别中的应用[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
5 李泽辉;聂生东;陈兆学;;应用多类SVM分割MR脑图像特征选择与优化的实验研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
6 蒙新泛;王厚峰;;主客观识别中的上下文因素的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 万京;王建东;;一种基于新的差异性度量的ReliefF方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
8 范丽;许洁萍;;基于GMM的音乐信号音色模型研究[A];第四届和谐人机环境联合学术会议论文集[C];2008年
9 陈友;戴磊;程学旗;;基于MRMHC-C4.5的IP流分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 申f;杨宏晖;袁帅;;用于水声目标识别的互信息无监督特征选择[A];第三届上海——西安声学学会学术会议论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 李静;高维数据交互特征选择和分类研究[D];燕山大学;2015年
2 刘风;基于磁共振成像的多变量模式分析方法学与应用研究[D];电子科技大学;2014年
3 王石平;粗糙拟阵及其在高维数据降维中的应用研究[D];电子科技大学;2014年
4 代琨;基于支持向量机的网络数据特征选择技术研究[D];解放军信息工程大学;2013年
5 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
6 张明锦;基于特征选择的多变量数据分析方法及其在谱学研究中的应用[D];华东理工大学;2011年
7 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年
8 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
9 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
10 王锋;基于粒化机理的粗糙特征选择高效算法研究[D];山西大学;2013年
中国硕士学位论文全文数据库 前10条
1 周瑞;基于支持向量机特征选择的移动通信网络问题分析[D];华南理工大学;2015年
2 张金蕾;蛋白质SUMO化修饰位点预测的数据挖掘技术研究[D];西北农林科技大学;2015年
3 陈云风;基于聚类集成技术的高铁信号故障诊断研究[D];西南交通大学;2015年
4 张斌斌;网络股评的倾向性分析[D];中央民族大学;2015年
5 季金胜;高分辨率遥感影像典型地物目标的特征选择及其稳定性研究[D];上海交通大学;2015年
6 袁玉录;基于数据分类的网络通信行为建模方法研究[D];电子科技大学;2015年
7 王虎;基于试验设计的白酒谱图特征选择及支持向量机参数优化研究[D];南京财经大学;2015年
8 王维智;基于特征提取和特征选择的级联深度学习模型研究[D];哈尔滨工业大学;2015年
9 皮阳;基于声音的生物种群识别[D];电子科技大学;2015年
10 刘树龙;特征选择在软件缺陷预测中的应用技术研究[D];南京大学;2015年
本文关键词:基于分步特征选择和组合分类器的电信客户流失预测模型,由笔耕文化传播整理发布。
本文编号:332100
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/332100.html