基于隐式反馈数据的用户行为分析及购买预测
发布时间:2021-01-28 18:03
随着移动互联网的发展,电商平台进入了一个快速发展期,截至目前各电商平台已积累了海量的用户行为数据。从是否能直接反映用户喜好这一维度,对用户行为数据可以分为两类,一类是显式反馈数据,一类是隐式反馈数据。目前针对隐式反馈的研究较少,但是隐式反馈数据在电商平台上的占比最大,通过对隐式反馈用户行为数据的挖掘可以为电商实现更进一步的精准营销提供可能,同时对隐式反馈数据分析挖掘也是对显式反馈数据很好地补充,所以对于电商平台来说针对隐式反馈用户行为的分析挖掘十分重要。因此本文提出了基于数据可视化、特征工程和机器学习模型等一系列方法对电商隐式反馈数据进行处理,以便实现对用户的购买行为进行预测以及更好的为用户推送商品。本文首先梳理了有关隐式反馈、用户行为、特征工程及购买预测的相关研究文献。总结了众多文献的研究内容,分析这些文献在研究中存在的不足。然后进一步提出了本文研究框架和研究方法。本文以电商大规模隐式反馈数据为研究基础,将购买预测问题转化为机器学习二分类问题。首先对原始数据进行清洗整理,去掉刷单用户和爬虫用户等,并通过数据可视化的方式观察购买转化率在时间上的分布等规律。然后基于观察到的规律构建四大特...
【文章来源】:南京邮电大学江苏省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
技术路线图
南京邮电大学专业学位硕士研究生学位论文第三章数据预处理及分析173.4训练集和测试集划分购买预测问题本质上是个二分类问题,所以我们把在考察日(要进行预测的那一天)有购买的用户商品对标记为1,未购买的标记为0。图7训练集和测试集划分基于前面的探索,选取时间窗口为3天。如果只选取一天作为考察日正负样本会严重失衡(1:67),所以本文固定考察日后,用考察日当天是否购买去标记前三日。然后将考察日往前推一天继续标记,这样做的目的是为了扩充正样本数目。我们将12月3日的购买记录作为测试集,将11月25日至12月2日作为训练集并构建特征训练集模型。最终训练好模型后,使用模型对11月30日至12月2日的数据进行预测,将预测输出的结果与测试集12月3日有交互的数据进行比对。经过活动窗口采集正样本后,我们的正样本数量达到4860个,每次滑动采样的过程中随机抽取2000个负样本,最终负样本数量为10000个,正负样本比降低到1比2,样本总数为14860个。本次实验使用u_id、i_id和act_day(也就是考察日)用于唯一标记一个样本,lable列为样本的标签,如果该样本在考察日当天发生了购买行为就标记为1,如果没有购买行为就标记为0。样本结构的构造如下表所示
Logit训练图
【参考文献】:
期刊论文
[1]基于深度森林的用户购买行为预测模型[J]. 葛绍林,叶剑,何明祥. 计算机科学. 2019(09)
[2]针对隐式反馈推荐系统的表征学习方法[J]. 梅岚翔,郁雪. 计算机应用研究. 2020(08)
[3]隐式反馈场景下的LFM-XGB-LR融合推荐算法[J]. 程晓娜,孙志锋. 计算机工程与应用. 2020(05)
[4]新消费者重复购买意向预测研究[J]. 张李义,李一然,文璇. 数据分析与知识发现. 2018(11)
[5]基于隐式反馈数据的个性化游戏推荐[J]. 俞东进,陈聪,吴建华,陈耀旺. 电子学报. 2018(11)
[6]隐式反馈场景下基于Pairwise排序学习的因子分解机算法[J]. 靳冠坤,库涛,温广波,贾敬崧. 科学技术与工程. 2018(16)
[7]LSTM与随机森林购买行为预测模型研究[J]. 李旭阳,邵峰晶. 青岛大学学报(工程技术版). 2018(02)
[8]基于阿里巴巴大数据重复购买预测的实证研究[J]. 王克利,邓飞其. 时代金融. 2018(03)
[9]基于用户浏览日志的移动购买预测研究[J]. 张鹏翼,王丹雪,焦祎凡,陈秀雨,王军. 数据分析与知识发现. 2018(01)
[10]基于Bagging策略的XGBoost算法在商品购买预测中的应用[J]. 谢冬青,周成骥. 现代信息科技. 2017(06)
硕士论文
[1]基于特征选择和模型融合的网络购买行为预测研究[D]. 刘潇蔓.北京交通大学 2017
本文编号:3005434
【文章来源】:南京邮电大学江苏省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
技术路线图
南京邮电大学专业学位硕士研究生学位论文第三章数据预处理及分析173.4训练集和测试集划分购买预测问题本质上是个二分类问题,所以我们把在考察日(要进行预测的那一天)有购买的用户商品对标记为1,未购买的标记为0。图7训练集和测试集划分基于前面的探索,选取时间窗口为3天。如果只选取一天作为考察日正负样本会严重失衡(1:67),所以本文固定考察日后,用考察日当天是否购买去标记前三日。然后将考察日往前推一天继续标记,这样做的目的是为了扩充正样本数目。我们将12月3日的购买记录作为测试集,将11月25日至12月2日作为训练集并构建特征训练集模型。最终训练好模型后,使用模型对11月30日至12月2日的数据进行预测,将预测输出的结果与测试集12月3日有交互的数据进行比对。经过活动窗口采集正样本后,我们的正样本数量达到4860个,每次滑动采样的过程中随机抽取2000个负样本,最终负样本数量为10000个,正负样本比降低到1比2,样本总数为14860个。本次实验使用u_id、i_id和act_day(也就是考察日)用于唯一标记一个样本,lable列为样本的标签,如果该样本在考察日当天发生了购买行为就标记为1,如果没有购买行为就标记为0。样本结构的构造如下表所示
Logit训练图
【参考文献】:
期刊论文
[1]基于深度森林的用户购买行为预测模型[J]. 葛绍林,叶剑,何明祥. 计算机科学. 2019(09)
[2]针对隐式反馈推荐系统的表征学习方法[J]. 梅岚翔,郁雪. 计算机应用研究. 2020(08)
[3]隐式反馈场景下的LFM-XGB-LR融合推荐算法[J]. 程晓娜,孙志锋. 计算机工程与应用. 2020(05)
[4]新消费者重复购买意向预测研究[J]. 张李义,李一然,文璇. 数据分析与知识发现. 2018(11)
[5]基于隐式反馈数据的个性化游戏推荐[J]. 俞东进,陈聪,吴建华,陈耀旺. 电子学报. 2018(11)
[6]隐式反馈场景下基于Pairwise排序学习的因子分解机算法[J]. 靳冠坤,库涛,温广波,贾敬崧. 科学技术与工程. 2018(16)
[7]LSTM与随机森林购买行为预测模型研究[J]. 李旭阳,邵峰晶. 青岛大学学报(工程技术版). 2018(02)
[8]基于阿里巴巴大数据重复购买预测的实证研究[J]. 王克利,邓飞其. 时代金融. 2018(03)
[9]基于用户浏览日志的移动购买预测研究[J]. 张鹏翼,王丹雪,焦祎凡,陈秀雨,王军. 数据分析与知识发现. 2018(01)
[10]基于Bagging策略的XGBoost算法在商品购买预测中的应用[J]. 谢冬青,周成骥. 现代信息科技. 2017(06)
硕士论文
[1]基于特征选择和模型融合的网络购买行为预测研究[D]. 刘潇蔓.北京交通大学 2017
本文编号:3005434
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3005434.html
最近更新
教材专著