基于多算法融合的电子商务客户流失预测算法研究
发布时间:2021-03-09 18:22
针对电子商务客户流失预测中存在的客户特征多样性、流失客户比例失衡、采用单一算法易出现“过拟合”等一系列现象会影响预测效果问题,本文构建了基于多算法融合的电子商务客户流失预测算法模型。首先,为了解决客户样本在特征空间分布上的差异性,本文针对传统K-means聚类中存在的初始中心点不稳定、易陷入局部最优和难以选取最佳聚类数等一系列问题,提出了一种基于K-means聚类的改进算法。该算法首先利用K-means++从数据中选择K+m个距离尽可能远的对象作为初始聚类中心,然后利用K-mediods选择数据样本的中位数更新聚类中心,为了进一步调整聚类的稳定性,最后使用两步聚类将聚类中心聚类为K个。通过对四个常用UCI标准数据集进行仿真实验,发现对比K-means传统聚类算法,该算法的预测准确率分别提高了6.88%、1.34%、0.57%和5.18%。结果表明该算法对于改善特征空间分布上的差异性是有效的。其次,为了改善数据不平衡会影响样本分类准确率的问题,本文基于过采样法和欠采样法,提出了一种EasyEnsemble—Smote算法。该算法首先通过Smote算法,在分析少数类样本特征的基础上合成新样...
【文章来源】:昆明理工大学云南省
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
数据挖掘处理过程图
第二章部分相关理论13(4)建立模型:将已处理好的数据应用于数据挖掘中的各类算法中,选择相应的参数后并生成模型。(5)模型评估和解释:使用数学方法,对模型的结果进行评估与比较,并选出结果相对较优的模型。2.4.用于预测的数据挖掘算法预测是指计算机从历史数据获取知识并使用这些知识对未来数据进行合理预测的过程。随着互联网和计算机技术不断的发展,各种预测算法也在不断的出现,本章主要介绍以下四种预测算法:2.4.1.决策树算法决策树(DecisionTree)[43-44]是机器学习中较为经典的一种分类与预测的方法。本节会系统讲述决策树算法中用到的各种概念,并详细介绍决策树构建过程的几个步骤。(1)决策树的基本概念决策树的结构图如下图2.2所示,它由结点和边组成。结点根据象征意义又可以划分为内部结点和叶结点。前者表示数据中样本特征,后者表示数据中样本的类别。决策树对样本进行分类的过程可进行如下描述:从决策树的根结点开始,根据样本的特征进行决策树分支的选择,然后使用该方式逐渐向下迭代递归,若算法运行到决策树的叶结点则递归结束,此时叶结点的标签就是样本的类别。图2.2决策树结构图
决策树算法流程图
【参考文献】:
期刊论文
[1]一种影响空间下的快速K-means聚类算法[J]. 赵文冲,蔡江辉,赵旭俊,张继福. 小型微型计算机系统. 2016(09)
[2]基于K-均值和K-中心点算法的大数据集分析[J]. 郭晨晨,朱红康. 太原师范学院学报(自然科学版). 2016(02)
[3]Integrating OWA and Data Mining for Analyzing Customers Churn in E-Commerce[J]. CAO Jie,YU Xiaobing,ZHANG Zhifei. Journal of Systems Science & Complexity. 2015(02)
[4]影响电子商务客户流失因素分析[J]. 于小兵,王旭明. 数学的实践与认识. 2014(21)
[5]多类类别不平衡学习算法:EasyEnsemble.M[J]. 李倩倩,刘胥影. 模式识别与人工智能. 2014(02)
[6]影响B2C电子商务企业客户流失因素的实证分析[J]. 李婷婷. 对外经贸. 2014(01)
[7]消费者对B2C网站忠诚度研究——基于Ordered Logit模型[J]. 舒曼. 经济论坛. 2013(09)
[8]灰色关联分析模型研究进展[J]. 刘思峰,蔡华,杨英杰,曹颖. 系统工程理论与实践. 2013(08)
[9]融入个体活跃度的电子商务客户流失预测模型[J]. 琚春华,卢琦蓓,郭飞鹏. 系统工程理论与实践. 2013(01)
[10]B2C电子商务客户流失原因评估研究[J]. 于小兵,曹杰,张梦男. 模糊系统与数学. 2012(06)
硕士论文
[1]BP神经网络的改进研究及应用[D]. 刘天舒.东北农业大学 2011
[2]BP神经网络算法改进及应用研究[D]. 黄丽.重庆师范大学 2008
本文编号:3073269
【文章来源】:昆明理工大学云南省
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
数据挖掘处理过程图
第二章部分相关理论13(4)建立模型:将已处理好的数据应用于数据挖掘中的各类算法中,选择相应的参数后并生成模型。(5)模型评估和解释:使用数学方法,对模型的结果进行评估与比较,并选出结果相对较优的模型。2.4.用于预测的数据挖掘算法预测是指计算机从历史数据获取知识并使用这些知识对未来数据进行合理预测的过程。随着互联网和计算机技术不断的发展,各种预测算法也在不断的出现,本章主要介绍以下四种预测算法:2.4.1.决策树算法决策树(DecisionTree)[43-44]是机器学习中较为经典的一种分类与预测的方法。本节会系统讲述决策树算法中用到的各种概念,并详细介绍决策树构建过程的几个步骤。(1)决策树的基本概念决策树的结构图如下图2.2所示,它由结点和边组成。结点根据象征意义又可以划分为内部结点和叶结点。前者表示数据中样本特征,后者表示数据中样本的类别。决策树对样本进行分类的过程可进行如下描述:从决策树的根结点开始,根据样本的特征进行决策树分支的选择,然后使用该方式逐渐向下迭代递归,若算法运行到决策树的叶结点则递归结束,此时叶结点的标签就是样本的类别。图2.2决策树结构图
决策树算法流程图
【参考文献】:
期刊论文
[1]一种影响空间下的快速K-means聚类算法[J]. 赵文冲,蔡江辉,赵旭俊,张继福. 小型微型计算机系统. 2016(09)
[2]基于K-均值和K-中心点算法的大数据集分析[J]. 郭晨晨,朱红康. 太原师范学院学报(自然科学版). 2016(02)
[3]Integrating OWA and Data Mining for Analyzing Customers Churn in E-Commerce[J]. CAO Jie,YU Xiaobing,ZHANG Zhifei. Journal of Systems Science & Complexity. 2015(02)
[4]影响电子商务客户流失因素分析[J]. 于小兵,王旭明. 数学的实践与认识. 2014(21)
[5]多类类别不平衡学习算法:EasyEnsemble.M[J]. 李倩倩,刘胥影. 模式识别与人工智能. 2014(02)
[6]影响B2C电子商务企业客户流失因素的实证分析[J]. 李婷婷. 对外经贸. 2014(01)
[7]消费者对B2C网站忠诚度研究——基于Ordered Logit模型[J]. 舒曼. 经济论坛. 2013(09)
[8]灰色关联分析模型研究进展[J]. 刘思峰,蔡华,杨英杰,曹颖. 系统工程理论与实践. 2013(08)
[9]融入个体活跃度的电子商务客户流失预测模型[J]. 琚春华,卢琦蓓,郭飞鹏. 系统工程理论与实践. 2013(01)
[10]B2C电子商务客户流失原因评估研究[J]. 于小兵,曹杰,张梦男. 模糊系统与数学. 2012(06)
硕士论文
[1]BP神经网络的改进研究及应用[D]. 刘天舒.东北农业大学 2011
[2]BP神经网络算法改进及应用研究[D]. 黄丽.重庆师范大学 2008
本文编号:3073269
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3073269.html