基于机器学习的某商业银行客户画像模型研究
发布时间:2021-07-08 20:29
客户是商业银行利益的根本。面对日趋激烈的行业竞争与饱和的市场环境,如何有效的利用客户数据分析来针对性的营销客户,对提高银行效益十分重要。机器学习是从数据中获取有价值信息的重要手段,用机器学习技术对商业银行的客户数据进行画像建模,可以更加准确地分类客户。本文以机器学习为主对商业银行客户数据进行分析,构建商业银行客户画像模型,并将该画像模型对客户的分类应用于银行客户画像系统中,使得画像系统能够更加全面的展示客户信息。本文的主要工作包括:1.首先对商业银行客户数据进行数据预处理。因为生成对抗网络(GAN)相比于传统方法,能更好的模拟原始样本分布,生成高质量样本,所以将GAN模型应用于银行客户数据处理中,来解决存在的银行客户类别不平衡问题。同时将本文提出的GAN模型与常用的RUS、ROS、SMOTE、BSMOTE和ADASYN等类别不平衡处理方法进行了实验对比。结果表明,本文提出的生成对抗网络模型对于类别不均衡问题在正确率、召回率和F-measure等指标的综合度量上具有更好的效果。2.根据处理后的数据构建客户画像模型。本文采用两种模型结合的方式构建客户画像模型,来解决高维银行数据的难以精确分...
【文章来源】:重庆理工大学重庆市
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
Smote算法示意图
3.数据预处理与基于生成对抗网络的类别不平衡处理17图3.1变量churn不平衡比率示意图3.1.2数据清理与转换如上文所述,数据预处理是建立模型之前很重要的一步。本文研究所使用的商业银行客户数据存在以下几个主要问题:(1)客户数据维度很高,即属于维度灾难情况,模型训练难度很高与训练开销极大;(2)变量缺失值过多,需要对值缺失进行填充,如果某一变量存在缺失比例过高现象则将其删除;(3)字符串型数据过多,需要进行数据转换;根据上述问题,首先处理缺失值。对于缺失占比高于50%的特征进行删除处理,而对于占比较低的,则补全缺失值。本文使用均值法填补缺失值,即用该变量非空值的均值或中位数进行填充;同时,删除样本值超过90%是0的变量,这些变量对于客户画像建模没有意义。如原始数据中DEP_SA_DEPCD_COSM_AMT变量的全部为0,说明这个变量为不常用变量,对于建模分析意义不大,因此删除。对字符串型数据进行转换,如CUST_DOLLER_FLAG、FUND_FLAG等字段的数据类型为形如“b"N",b"Y"”的字符串,将这些字段的根据属性的具体业务含义转化为1,0等数值型数据,构成新的属性。同时为了解决不同变量计量单位不同导致的数据量纲偏差过大的问题,本文采用数据标准化的来消除属性量纲不一致的问题,来避免某个属性重要度过大或过小,标准化公式如(3-1)所示。=(3-1)
重庆理工大学硕士学位论文36述造成偏差。为了能够给出合适的聚类数目,本文使用肘部法对聚类个数进行筛眩分别计算了聚类数目为2至14作为时每种情况下各样本到聚类中心的误差平方和(SSE),如式(4-3)=∑∑||∈=12(4-3)图4.3SSE值随簇数变化图通过上图可以发现,SSE值随聚类簇数的增加逐渐减小,在客户细分数目为6时目标函数值的SSE值的下降趋势出现明显拐点,曲线斜率明显变缓。根据肘部法的准则,选择6作为银行客户簇数。得出最终的客户聚类情况如下表4.6与图4.4所示:表4.6聚类均值汇总表聚类因子1因子2因子3因子4因子5因子610.6851-1.0230-0.0428-1.50680.3816-1.66622-0.09370.31361.2774-1.26200.0531-0.59683-0.05100.0774-1.42180.5376-0.5602-0.31394-0.1211-1.3418-1.53641.6454-1.17881.131350.8359-0.2748-0.61750.0218-0.42661.58756-0.9243-1.56660.13080.4651-0.0072-1.2994
【参考文献】:
期刊论文
[1]LSTM模型集成方法在客户流失预测中的应用[J]. 周捷,严建峰,杨璐,夏鹏,王猛. 计算机应用与软件. 2019(11)
[2]汽车4S店TFM客户细分模型及其方法研究[J]. 谢鹏寿,张宽,范宏进,贵向泉,张恩展. 小型微型计算机系统. 2019(10)
[3]因子分析综合评价研究综述[J]. 刘照德,詹秋泉,田国梁. 统计与决策. 2019(19)
[4]SMOTE过采样及其改进算法研究综述[J]. 石洪波,陈雨文,陈鑫. 智能系统学报. 2019(06)
[5]改进的多层感知机在客户流失预测中的应用[J]. 夏国恩,唐琪,张显全. 计算机工程与应用. 2020(14)
[6]面向不均衡数据的动态抽样集成学习算法[J]. 张燕,杜红乐. 计算机应用与软件. 2019(06)
[7]基于概率采样和集成学习的不平衡数据分类算法[J]. 曹雅茜,黄海燕. 计算机科学. 2019(05)
[8]基于Stacking策略的稳定性分类器组合模型研究[J]. 吴挡平,张忠林,曹婷婷. 小型微型计算机系统. 2019(05)
[9]基于深度神经网络的客户流失预测模型[J]. 马文斌,夏国恩. 计算机技术与发展. 2019(09)
[10]基于因子分析和聚类分析的商业银行二级分行特色分类方法研究[J]. 应习文,袁雅珵. 新金融. 2019(04)
博士论文
[1]大数据背景下商业银行精准营销的设计与应用[D]. 邓典雅.华南理工大学 2018
硕士论文
[1]高校学生画像系统的设计与实现[D]. 杨浩.北京邮电大学 2019
[2]银行个贷流失客户画像体系构造与预警建模[D]. 程晖.长春工业大学 2019
[3]基于数据挖掘的运营商用户流失预测研究与应用[D]. 林小榕.北京交通大学 2019
[4]基于Hadoop和Django的电商用户画像系统[D]. 赖伟.首都经济贸易大学 2018
[5]A银行信用卡营销客户画像体系设计[D]. 欧阳芳慧.湖南大学 2018
[6]基于“新零售”模式的商业银行精准营销分析与应用研究[D]. 叶倩琳.华南理工大学 2018
[7]基于金融大数据的客户风险评估及预测[D]. 袁亚光.北京邮电大学 2018
[8]K-means聚类算法在银行CRM系统客户细分中的应用[D]. 李艳君.哈尔滨工业大学 2017
本文编号:3272280
【文章来源】:重庆理工大学重庆市
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
Smote算法示意图
3.数据预处理与基于生成对抗网络的类别不平衡处理17图3.1变量churn不平衡比率示意图3.1.2数据清理与转换如上文所述,数据预处理是建立模型之前很重要的一步。本文研究所使用的商业银行客户数据存在以下几个主要问题:(1)客户数据维度很高,即属于维度灾难情况,模型训练难度很高与训练开销极大;(2)变量缺失值过多,需要对值缺失进行填充,如果某一变量存在缺失比例过高现象则将其删除;(3)字符串型数据过多,需要进行数据转换;根据上述问题,首先处理缺失值。对于缺失占比高于50%的特征进行删除处理,而对于占比较低的,则补全缺失值。本文使用均值法填补缺失值,即用该变量非空值的均值或中位数进行填充;同时,删除样本值超过90%是0的变量,这些变量对于客户画像建模没有意义。如原始数据中DEP_SA_DEPCD_COSM_AMT变量的全部为0,说明这个变量为不常用变量,对于建模分析意义不大,因此删除。对字符串型数据进行转换,如CUST_DOLLER_FLAG、FUND_FLAG等字段的数据类型为形如“b"N",b"Y"”的字符串,将这些字段的根据属性的具体业务含义转化为1,0等数值型数据,构成新的属性。同时为了解决不同变量计量单位不同导致的数据量纲偏差过大的问题,本文采用数据标准化的来消除属性量纲不一致的问题,来避免某个属性重要度过大或过小,标准化公式如(3-1)所示。=(3-1)
重庆理工大学硕士学位论文36述造成偏差。为了能够给出合适的聚类数目,本文使用肘部法对聚类个数进行筛眩分别计算了聚类数目为2至14作为时每种情况下各样本到聚类中心的误差平方和(SSE),如式(4-3)=∑∑||∈=12(4-3)图4.3SSE值随簇数变化图通过上图可以发现,SSE值随聚类簇数的增加逐渐减小,在客户细分数目为6时目标函数值的SSE值的下降趋势出现明显拐点,曲线斜率明显变缓。根据肘部法的准则,选择6作为银行客户簇数。得出最终的客户聚类情况如下表4.6与图4.4所示:表4.6聚类均值汇总表聚类因子1因子2因子3因子4因子5因子610.6851-1.0230-0.0428-1.50680.3816-1.66622-0.09370.31361.2774-1.26200.0531-0.59683-0.05100.0774-1.42180.5376-0.5602-0.31394-0.1211-1.3418-1.53641.6454-1.17881.131350.8359-0.2748-0.61750.0218-0.42661.58756-0.9243-1.56660.13080.4651-0.0072-1.2994
【参考文献】:
期刊论文
[1]LSTM模型集成方法在客户流失预测中的应用[J]. 周捷,严建峰,杨璐,夏鹏,王猛. 计算机应用与软件. 2019(11)
[2]汽车4S店TFM客户细分模型及其方法研究[J]. 谢鹏寿,张宽,范宏进,贵向泉,张恩展. 小型微型计算机系统. 2019(10)
[3]因子分析综合评价研究综述[J]. 刘照德,詹秋泉,田国梁. 统计与决策. 2019(19)
[4]SMOTE过采样及其改进算法研究综述[J]. 石洪波,陈雨文,陈鑫. 智能系统学报. 2019(06)
[5]改进的多层感知机在客户流失预测中的应用[J]. 夏国恩,唐琪,张显全. 计算机工程与应用. 2020(14)
[6]面向不均衡数据的动态抽样集成学习算法[J]. 张燕,杜红乐. 计算机应用与软件. 2019(06)
[7]基于概率采样和集成学习的不平衡数据分类算法[J]. 曹雅茜,黄海燕. 计算机科学. 2019(05)
[8]基于Stacking策略的稳定性分类器组合模型研究[J]. 吴挡平,张忠林,曹婷婷. 小型微型计算机系统. 2019(05)
[9]基于深度神经网络的客户流失预测模型[J]. 马文斌,夏国恩. 计算机技术与发展. 2019(09)
[10]基于因子分析和聚类分析的商业银行二级分行特色分类方法研究[J]. 应习文,袁雅珵. 新金融. 2019(04)
博士论文
[1]大数据背景下商业银行精准营销的设计与应用[D]. 邓典雅.华南理工大学 2018
硕士论文
[1]高校学生画像系统的设计与实现[D]. 杨浩.北京邮电大学 2019
[2]银行个贷流失客户画像体系构造与预警建模[D]. 程晖.长春工业大学 2019
[3]基于数据挖掘的运营商用户流失预测研究与应用[D]. 林小榕.北京交通大学 2019
[4]基于Hadoop和Django的电商用户画像系统[D]. 赖伟.首都经济贸易大学 2018
[5]A银行信用卡营销客户画像体系设计[D]. 欧阳芳慧.湖南大学 2018
[6]基于“新零售”模式的商业银行精准营销分析与应用研究[D]. 叶倩琳.华南理工大学 2018
[7]基于金融大数据的客户风险评估及预测[D]. 袁亚光.北京邮电大学 2018
[8]K-means聚类算法在银行CRM系统客户细分中的应用[D]. 李艳君.哈尔滨工业大学 2017
本文编号:3272280
本文链接:https://www.wllwen.com/guanlilunwen/huobilw/3272280.html