基于机器学习算法的重复购买行为预测研究
发布时间:2020-08-28 15:43
重复购买行为是营销学领域的研究热点。随着电子商务的快速发展,参与网购的用户越来越多,如何基于大数据预测用户的重复购买行为成为电商平台非常关心并想解决的问题。重复购买行为预测技术可应用于电商平台推荐系统中,帮助商家识别具有重复购买意向的用户,从而实现营销信息的精准投放。准确预测重复购买行为的关键在于通过模型算法挖掘出数据中所隐含的用户行为规律。然而,由于网购用户群体规模巨大且不同用户群体的购买行为规律具有很大的差异性,这使得数据挖掘工作变得异常困难。传统的机器学习算法在预测时忽略了用户购买行为规律的差异性,难以取得好的预测效果。因此,本文着重研究如何提高机器学习模型在重复购行为预测问题中的泛化性能,使其克服用户行为规律的差异性对预测性能造成的影响。本文在对现有机器学习算法进行研究的基础上,提出了细分化集成学习方法。该方法可以从数据集中学习到多种用户购买行为规律,提高了模型的预测性能。论文的主要研究工作如下。(1)重复购买行为影响因素研究。通过对电商平台用户购买行为数据的分析,从用户、商家以及商家和用户的关系三个方面挖掘影响重复购买行为的重要因素,并构建了52种与重复购买行为相关的特征。(2)现有机器学习模型的对比研究。论文对常用的机器学习方法进行了研究。实验结果表明,现有的机器学习模型预测精度普遍不高。Logistic回归、神经网络、决策树等单一模型在解决样本类别不均衡问题时存在局限性。集成学习方法虽然可以通过欠采样的方式解决类别不均衡问题,但无法有效的学习到具有差异性的用户购买行为规律,预测效果同样不理想。(3)细分化集成学习策略研究。考虑到目前的机器学习方法在预测重复购买行为时存在的局限性,论文对Bagging集成学习方法进行改进,提出了细分化集成学习。细分化集成学习通过在Bagging中设置强规则结合策略,使其能逐层过滤样本数据,从而实现对用户购买行为数据的细分。这种新的集成学习方法可根据细分后的数据集学到多种购买行为规律。实验结果表明,与现有的机器学习方法相比,细分化集成学习具有更好的预测效果。(4)预测模型的泛化性能研究。从泛化误差的角度对细分化集成学习模型的泛化性能进行了研究。通过对模型的泛化误差进行分解发现,细分化集成学习的样本过滤机制可以降低方差,因此具有更好的预测性能。
【学位单位】:重庆工商大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP181;F274
【部分图文】:
图 2.1 特征工程示意图.2.1 基于用户的特征用户自身的需求偏好以及购买行为规律是影响重复购买行为最主要的因素此,本文从六个不同的角度对用户的特征进行全面分析。(1)用户选购商品的多样性程度用户在参与网购时,其产生的行为类型可分为点击、购买、加入收藏等。,可通过这四种行为统计每个用户关注过多少种商品。这类特征主要用来衡户选购商品的多样性程度。多样性程度越高,说明该用户越喜欢购买不一样品,因此其重复购买同一个商家商品的概率可能较低。本文共选取了 12 个用量多样性程度的特征,如表 2.5 所示。表 2.5 用户选购商品的多样性特征特征序号 特征说明f1 用户点击过多少种不同的商品
()()(1)'()1()()liljjljiliWfz (计算偏导数,方法如下:(1)()()(-1)()()(,;,)(,;,) lilililjljlijJWbxybJWbxyaaW (3得的导数带入到梯度下降算法中,通过迭代步骤来减小代价函数 J(而求解神经网络模型。验设计验流程试验的具体流程如图 3.1 所示。
图 3.2 模型预测效果对比图由图 3.2 可以发现,三种模型的 AUC 值和准确率均比较低,但 Logistic 回 AUC 值和准确率要高于 CART 树和神经网络。CART 树与神经网络的预测相似。上述实验结果表明,神经网络和 CART 树等非线性模型在预测重复购买行容易对训练集产生过拟合。由于数据集存在类别不均衡现象,在采用单一的学习模型进行训练时,首先会对训练集中的负样本进行欠采样操作。欠采样虽然平衡了两种样本的数量,但由于丢失了大量负样本信息。也容易造成模度拟合正样本,而对负样本学习能力不足。由此造成了单一的学习模型的预果不理想。.4 本章小结本章通过实验研究的方法对比了 Logistic 回归、决策树以及神经网络等模
本文编号:2807778
【学位单位】:重庆工商大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP181;F274
【部分图文】:
图 2.1 特征工程示意图.2.1 基于用户的特征用户自身的需求偏好以及购买行为规律是影响重复购买行为最主要的因素此,本文从六个不同的角度对用户的特征进行全面分析。(1)用户选购商品的多样性程度用户在参与网购时,其产生的行为类型可分为点击、购买、加入收藏等。,可通过这四种行为统计每个用户关注过多少种商品。这类特征主要用来衡户选购商品的多样性程度。多样性程度越高,说明该用户越喜欢购买不一样品,因此其重复购买同一个商家商品的概率可能较低。本文共选取了 12 个用量多样性程度的特征,如表 2.5 所示。表 2.5 用户选购商品的多样性特征特征序号 特征说明f1 用户点击过多少种不同的商品
()()(1)'()1()()liljjljiliWfz (计算偏导数,方法如下:(1)()()(-1)()()(,;,)(,;,) lilililjljlijJWbxybJWbxyaaW (3得的导数带入到梯度下降算法中,通过迭代步骤来减小代价函数 J(而求解神经网络模型。验设计验流程试验的具体流程如图 3.1 所示。
图 3.2 模型预测效果对比图由图 3.2 可以发现,三种模型的 AUC 值和准确率均比较低,但 Logistic 回 AUC 值和准确率要高于 CART 树和神经网络。CART 树与神经网络的预测相似。上述实验结果表明,神经网络和 CART 树等非线性模型在预测重复购买行容易对训练集产生过拟合。由于数据集存在类别不均衡现象,在采用单一的学习模型进行训练时,首先会对训练集中的负样本进行欠采样操作。欠采样虽然平衡了两种样本的数量,但由于丢失了大量负样本信息。也容易造成模度拟合正样本,而对负样本学习能力不足。由此造成了单一的学习模型的预果不理想。.4 本章小结本章通过实验研究的方法对比了 Logistic 回归、决策树以及神经网络等模
【参考文献】
相关期刊论文 前10条
1 陈海涛;李同强;宋姗姗;;在线外卖平台用户重复购买行为的建模与实证研究[J];软科学;2015年11期
2 邢文祥;韩华;;电子商务消费者重复购买行为影响因素研究[J];学术论坛;2014年11期
3 尹华;胡玉平;;基于随机森林的不平衡特征选择算法[J];中山大学学报(自然科学版);2014年05期
4 陈渝;毛姗姗;潘晓月;许云红;;信息系统采纳后习惯对用户持续使用行为的影响[J];管理学报;2014年03期
5 薛君;赵青;卫林英;;网络购物粘性行为前置因素研究[J];财贸研究;2012年04期
6 贺爱忠;龚婉琛;;购物网站顾客体验对品牌忠诚影响的实证研究[J];东南大学学报(哲学社会科学版);2011年04期
7 彭凯;秦永彬;许道云;;基于逻辑回归的客户稳定度建模[J];计算机工程;2011年09期
8 黄聪;王东;;基于RFM分析模式与马尔可夫链的客户行为预测模型研究[J];情报杂志;2009年S2期
9 李斌;章卫国;宁东方;尹伟;;基于神经网络信息融合的智能故障诊断方法[J];计算机仿真;2008年06期
10 史有春,刘春林;顾客重复购买行为的实证研究[J];南开管理评论;2005年01期
本文编号:2807778
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2807778.html