基于Stacking模型融合的电信客户信用度模型研究与设计
发布时间:2020-05-15 08:31
【摘要】:近几年来,随着移动设备的普及以及通信行业的不断发展,电信客户的需求变得越来越精细以及复杂。目前,电信运营商的数据库中存在大量的用户信息记录,然而这些数据信息数量庞大且种类复杂,通过人工分析的方法不能很好的处理并利用其中的有效数据,没有发挥到数据库中有效数据应有的数据价值。通过本文的工作研究,电信运营商可以初始化用户的信用度等级,建立起信用度体系,减少用户信用度研究工作的开销,提升电信运营商的品牌形象及利润。本文的工作成果及研究成果如下:1.对电信行业数据库中的大量数据进行处理电信行业提供的数据库数据表格数目十分庞大,约一千张左右数据库表。首先,通过用户身份识别码对有效表格进行选择且合并。然后,对数据缺失的行进行默认值补充或数据删除,同时使自然语言特征转换为可用于分类的数值标签。此外,对数据进行训练,根据特征值的贡献度筛选出模型使用的特征值。最后,通过基于难例挖掘的思路进行训练样本选择。2.构建了基于Stacking模型融合的电信用户信用度模型将随机森林、梯度提升树及有向无环图SVM作为次级分类器,对样本进行分类。然后,通过Stacking方法,将三个次级分类器的预测结果转换为元特征向量,用于构造元分类器。最后,获得上述三种算法进行模型融合后的融合分类算法,构成完整的电信用户信用度模型,用于评估用户初始信用度。3.对模型效果进行评估模型构建完成后,将其与其他集成学习方法进行分析对比。除此以外,模型还会与投票法、权重法等模型融合方法进行效果对比。
【图文】:
图 2-1 Boosting 实现流程Boosting 的实现伪代码如图 2-2 所示。输入:数据集 = (X1y1) (X2y2) … (X y )弱分类器 1… 强分类器 .过程:for t = 1 … = ( ) % 将原始数据输入到弱分类器中end ′= % 创建新的数据集for i = 1 … for t = 1 … z = ( ) % 使用 ht 取区分训练样本 Xiend ′= ′∪ ((z1z2… z ) y )end′ = ( ′) % 将新的数据集 D’用强分类器进行训练输出: ( ) = ′(1( ) … ( ))
第二章 相关理论介绍较低的权重比例,整个训练过程不断迭代下去,直到对所有训练样本的训练过程完成;3. 最后,将所有训练获得的弱分类器进行融合,,形成一个强分类器。对于误差率较小的弱分类器,加大其融合的权重比例;对于误差率较大的弱分类器,降低其融合的权重比例,使得精确率较高的弱分类器在强分类器中起较大的决定作用。2.4.2 Bagging 算法Bagging 方法是一种对训练集进行有放回采样的方法,通过对原数据进行有放回的采样且建立子模型,整个过程重复多次,最后对子模型进行融合,如图 2-3 所示。其中,随机森林就是其中基于 Bagging 算法的一个典型方法。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13;F626;F274
本文编号:2664752
【图文】:
图 2-1 Boosting 实现流程Boosting 的实现伪代码如图 2-2 所示。输入:数据集 = (X1y1) (X2y2) … (X y )弱分类器 1… 强分类器 .过程:for t = 1 … = ( ) % 将原始数据输入到弱分类器中end ′= % 创建新的数据集for i = 1 … for t = 1 … z = ( ) % 使用 ht 取区分训练样本 Xiend ′= ′∪ ((z1z2… z ) y )end′ = ( ′) % 将新的数据集 D’用强分类器进行训练输出: ( ) = ′(1( ) … ( ))
第二章 相关理论介绍较低的权重比例,整个训练过程不断迭代下去,直到对所有训练样本的训练过程完成;3. 最后,将所有训练获得的弱分类器进行融合,,形成一个强分类器。对于误差率较小的弱分类器,加大其融合的权重比例;对于误差率较大的弱分类器,降低其融合的权重比例,使得精确率较高的弱分类器在强分类器中起较大的决定作用。2.4.2 Bagging 算法Bagging 方法是一种对训练集进行有放回采样的方法,通过对原数据进行有放回的采样且建立子模型,整个过程重复多次,最后对子模型进行融合,如图 2-3 所示。其中,随机森林就是其中基于 Bagging 算法的一个典型方法。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13;F626;F274
【参考文献】
中国期刊全文数据库 前4条
1 武丽英;;基于数据挖掘技术的客户价值评估模型的构建与应用[J];电子技术与软件工程;2014年15期
2 周丽媛;刘营;;数据挖掘决策树分类算法在移动通信业的应用[J];经营管理者;2011年20期
3 陈峰;;基于决策树和相异度算法的移动通信客户分类方法[J];计算机应用;2009年08期
4 赵兴华;李杰;王云峰;;数据挖掘在电信中的应用分析[J];科技情报开发与经济;2007年12期
中国硕士学位论文全文数据库 前1条
1 隆曼;基于数据挖掘的电信行业客户流失管理研究[D];西南财经大学;2013年
本文编号:2664752
本文链接:https://www.wllwen.com/guanlilunwen/sjfx/2664752.html