移动环境下商品推荐算法的研究与应用
发布时间:2021-01-24 18:58
随着时代的发展,网络购物逐渐成为人们日常生活中不可或缺的一部分。电子商务平台在运营中积累了大量的历史数据,如何充分利用这些数据提升用户的购物体验变得非常重要。传统的推荐算法无法充分挖掘用户的行为数据,预测用户购买的准确率不高。用户的行为数据中包含了许多的重要信息,可以预测用户可能喜好的商品并提高购买转换率。本文在上述背景下,为了提升预测用户购买的准确度,在阿里巴巴公开的数据集上进行数据挖掘。首先对数据集进行可视化分析,提取用户行为数据的规律后,通过构建特征工程,特征数据的清洗处理完成对分类模型进行训练。在训练中,本文提出了使用基于k-means聚类下采样调节正负样本比提升分类模型的训练速度和精度。最后将逻辑回归模型、随机森林模型和梯度提升决策树模型调节至最佳参数,对比在测试集中的性能,发现梯度提升决策树算法在复杂的数据中表现的更佳。在梯度提升决策树算法的基础上,提出使用基于用户的协同过滤算法进行补充。针对在实际中用户时间精力有限,商品的显示评分较少的问题,提出了使用一种用户兴趣值的计算。本文提出了一种基于排序的混合方式,将两种推荐算法的推荐列表在融合时采用基于兴趣值的排序生成推荐列表。...
【文章来源】:杭州电子科技大学浙江省
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
历年天猫双十一移动端交易额和占比推荐系统中的“信息过载”问题,是随着信息的爆炸式增长而出现[6]
杭州电子科技大学硕士学位论文16以及高效,在实际中有广泛的应用。逻辑回归也是对数几率回归,是一种线性模型。对于线性回归模型产生的预测值是实值,需要通过sigmoid函数进行转换分类。Sigmod函数的数学形式为:1()1xgxe(2.7)在图2.2中可以看到sigmoid函数是一个S曲线图,取值位于[0,1]之前,在远离0时会接近0或1。图2.8Sigmoid函数图将线性函数方程代入Sigmoid函数中,可以得到逻辑回归模型所做的假设:*1(1|;)()1TTxPyxgxe(2.8)对应的决策函数为:*y1,ifP(y1|x)0.5(2.9)在实际应用中可以根据不同情况选择不同的阈值。正常情况下分类阈值为0.5,当需要对准确度有较高要求的情况下,可以选择调高阈值,而在要求高召回率的情况下,可以选择阈值小于0.5。在逻辑回归模型中,可以通过最大似然估计来寻找最佳参数,其似然度可以表示为:1()(|)(|;)()(1())TyTyLPDPyxgxgx(2.10)取对数可以得到其对数似然度:()log()(1)log(1())TTlygxygx(2.11)在逻辑回归模型中可以使用的损伤函数包括0-1损失,log损失,hinge损失等。其中,log损失的定义为:
杭州电子科技大学硕士学位论文17L(Y,P(Y|X))(ylogp(y|x)(1y)log(1p(y|x)))(2.12)在数据集中,取平均log损失可以得到:1J()l()N(2.13)在逻辑回归模型中,对于求解最大化似然函数和最小化log损失函数在实际中是等价的,因此优化时可以采用梯度下降,以及常用的凸方法(共轭梯度下降,牛顿法等)用于求解该问题。逻辑回归本质上是一个线性模型,但是可以通过特征变换的方式,将低位空间转换到高维空间,使其在高维空间能够线性可分。下面两张图中,左图线性可分,右图为线性不可分,在特征转换2212121212[x,x][x,x,x,x,xx]后的空间里为线性可分的,在其原始空间中,其分类曲线是一条椭圆曲线图。(a)线性可分(b)线性不可分图2.9线性可分与线性不可分时逻辑回归模型分类边界逻辑回归模型,可以通过增加正则项,防止因为参数过多导致的过拟合问题。通过增加正则项,加大惩罚过大的参数来防止模型过拟合。在式(2.14)中,取p=1或p=2对应为L1和L2正则化。1()log()(1)log(1())TTpJygxygxwN‖‖(2.14)2.3.3随机森林模型随机森林的最早是在1995年由贝尔实验室的TinKamHo[44]提出的随机决策森林算法,该算法通过将Bagging思想[45]与随机特征思想结合在一起,利用多颗决策树进行构建训练。通过汇总多颗决策树的结果,来提高模型的预测能力与精度,是一种集成模型。随机森林是一种优秀的分类器,在数据集上表现良好,能够处理高维度特征,并且可以给出较为重要的特征。随机森林的定义为:由一组决策树分类器((X,)k1,2,3....)kh,k组成,k是一组服从独立分布的随机变量组成的,k是随机森林里决策树的数量。在给定自变量X的情况下,最佳的分类结果是由各个决策树分类器投票决定的。由于每棵决策树都是独立生成的,在随机
【参考文献】:
期刊论文
[1]网络学习资源个性化推荐系统的设计与开发[J]. 冯蓓蓓. 中国市场. 2017(13)
[2]混合用户和项目协同过滤的电子商务个性化推荐算法[J]. 李清霞,魏文红,蔡昭权. 中山大学学报(自然科学版). 2016(05)
[3]购物网站个性化推荐系统应用分析[J]. 李海霞. 现代经济信息. 2012(15)
[4]个性化推荐系统综述[J]. 王国霞,刘贺平. 计算机工程与应用. 2012(07)
[5]数据挖掘中决策树算法的探讨[J]. 唐华松,姚耀文. 计算机应用研究. 2001(08)
[6]基于多Agent混合智能实现个性化信息推荐[J]. 路海明,卢增祥,李衍达. 高技术通讯. 2001(04)
[7]Open Bookmark——基于Agent的信息过滤系统[J]. 冯翱,刘斌,卢增祥,路海明,王普,李衍达. 清华大学学报(自然科学版). 2001(03)
硕士论文
[1]电子商务使用行为从PC端到移动端转移的影响因素研究[D]. 王青.北京邮电大学 2015
本文编号:2997761
【文章来源】:杭州电子科技大学浙江省
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
历年天猫双十一移动端交易额和占比推荐系统中的“信息过载”问题,是随着信息的爆炸式增长而出现[6]
杭州电子科技大学硕士学位论文16以及高效,在实际中有广泛的应用。逻辑回归也是对数几率回归,是一种线性模型。对于线性回归模型产生的预测值是实值,需要通过sigmoid函数进行转换分类。Sigmod函数的数学形式为:1()1xgxe(2.7)在图2.2中可以看到sigmoid函数是一个S曲线图,取值位于[0,1]之前,在远离0时会接近0或1。图2.8Sigmoid函数图将线性函数方程代入Sigmoid函数中,可以得到逻辑回归模型所做的假设:*1(1|;)()1TTxPyxgxe(2.8)对应的决策函数为:*y1,ifP(y1|x)0.5(2.9)在实际应用中可以根据不同情况选择不同的阈值。正常情况下分类阈值为0.5,当需要对准确度有较高要求的情况下,可以选择调高阈值,而在要求高召回率的情况下,可以选择阈值小于0.5。在逻辑回归模型中,可以通过最大似然估计来寻找最佳参数,其似然度可以表示为:1()(|)(|;)()(1())TyTyLPDPyxgxgx(2.10)取对数可以得到其对数似然度:()log()(1)log(1())TTlygxygx(2.11)在逻辑回归模型中可以使用的损伤函数包括0-1损失,log损失,hinge损失等。其中,log损失的定义为:
杭州电子科技大学硕士学位论文17L(Y,P(Y|X))(ylogp(y|x)(1y)log(1p(y|x)))(2.12)在数据集中,取平均log损失可以得到:1J()l()N(2.13)在逻辑回归模型中,对于求解最大化似然函数和最小化log损失函数在实际中是等价的,因此优化时可以采用梯度下降,以及常用的凸方法(共轭梯度下降,牛顿法等)用于求解该问题。逻辑回归本质上是一个线性模型,但是可以通过特征变换的方式,将低位空间转换到高维空间,使其在高维空间能够线性可分。下面两张图中,左图线性可分,右图为线性不可分,在特征转换2212121212[x,x][x,x,x,x,xx]后的空间里为线性可分的,在其原始空间中,其分类曲线是一条椭圆曲线图。(a)线性可分(b)线性不可分图2.9线性可分与线性不可分时逻辑回归模型分类边界逻辑回归模型,可以通过增加正则项,防止因为参数过多导致的过拟合问题。通过增加正则项,加大惩罚过大的参数来防止模型过拟合。在式(2.14)中,取p=1或p=2对应为L1和L2正则化。1()log()(1)log(1())TTpJygxygxwN‖‖(2.14)2.3.3随机森林模型随机森林的最早是在1995年由贝尔实验室的TinKamHo[44]提出的随机决策森林算法,该算法通过将Bagging思想[45]与随机特征思想结合在一起,利用多颗决策树进行构建训练。通过汇总多颗决策树的结果,来提高模型的预测能力与精度,是一种集成模型。随机森林是一种优秀的分类器,在数据集上表现良好,能够处理高维度特征,并且可以给出较为重要的特征。随机森林的定义为:由一组决策树分类器((X,)k1,2,3....)kh,k组成,k是一组服从独立分布的随机变量组成的,k是随机森林里决策树的数量。在给定自变量X的情况下,最佳的分类结果是由各个决策树分类器投票决定的。由于每棵决策树都是独立生成的,在随机
【参考文献】:
期刊论文
[1]网络学习资源个性化推荐系统的设计与开发[J]. 冯蓓蓓. 中国市场. 2017(13)
[2]混合用户和项目协同过滤的电子商务个性化推荐算法[J]. 李清霞,魏文红,蔡昭权. 中山大学学报(自然科学版). 2016(05)
[3]购物网站个性化推荐系统应用分析[J]. 李海霞. 现代经济信息. 2012(15)
[4]个性化推荐系统综述[J]. 王国霞,刘贺平. 计算机工程与应用. 2012(07)
[5]数据挖掘中决策树算法的探讨[J]. 唐华松,姚耀文. 计算机应用研究. 2001(08)
[6]基于多Agent混合智能实现个性化信息推荐[J]. 路海明,卢增祥,李衍达. 高技术通讯. 2001(04)
[7]Open Bookmark——基于Agent的信息过滤系统[J]. 冯翱,刘斌,卢增祥,路海明,王普,李衍达. 清华大学学报(自然科学版). 2001(03)
硕士论文
[1]电子商务使用行为从PC端到移动端转移的影响因素研究[D]. 王青.北京邮电大学 2015
本文编号:2997761
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/2997761.html