基于用户兴趣转移挖掘的流式推荐算法研究
发布时间:2021-07-26 12:43
推荐系统是当下解决信息超载问题的有效方法,在经过学术界和工业界多年共同的研究和应用后,取得了卓越的研究成果。但是在移动互联网的时代中,数据量呈现几何式增长,传统推荐系统同时面临着可扩展性和数据稀疏性的双重考验。同时,随着时间的迁移,用户的兴趣偏好也在不断发生变化,一个成功的推荐系统应能捕捉并适应这些变化。为了应对上述挑战,本文提出了一种基于用户兴趣转移挖掘的流式推荐算法,主要从矩阵预填充、流式推荐模型的构建和遗忘机制三个方面展开研究并对其缺点进行针对性的改进。(1)带有流行度惩罚项的矩阵预填充方法。传统的协同过滤算法无法适应过于稀疏的数据,而矩阵预填充方法可以基于先验知识对缺失评分进行估计和填充,能够在一定程度上缓解数据的稀疏性问题。在对Enhanced SVD(ESVD)预填充方法的评分误差进行分析后,本文提出预填充评分的误差与用户活跃度及资源流行度之间具有正相关性的假设,并基于ESVD方法设计了一种带有流行度惩罚项的矩阵预填充方法ESVD-P,提高了预填充评分的精度,改善了模型后续的训练质量。(2)基于种类信息构建的改进流式推荐算法。为了能够及时应对外界的变化,流式推荐算法大多采用...
【文章来源】:武汉理工大学湖北省 211工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
MovieLens1M数据集中电影评分数量分布
武汉理工大学硕士学位论文1图2-2MovieLens1M数据集中用户评分数量分布将上述挑选出的热门资源子矩阵与活跃用户子矩阵相结合,便得到最终的高密度子矩阵,以MovieLens1M数据集为例,如表2-1所示,前5%的活跃用户与前5%的热门资源构成的子评分矩阵中一共包含41,900个已知评分,缺失评分数量仅为17,702个,子矩阵的整体密度高达70.30%,要远远高于原始评分矩阵4.19%的密度。表2-1不同挑选比例下的子矩阵分析挑选比例评分数量缺失评分数量子矩阵密度5%41,90017,70270.30%10%128,813109,99553.94%15%226,243307,72742.37%20%322,887629,86533.89%2.3.2子矩阵缺失评分的预测由活跃用户与热门资源所组成的高密度子矩阵中包含丰富的数据信息,因此,使用基本的矩阵分解模型RegularizedSVD(RSVD)便能很好的学习到用户与资源的特征,从而对其中的缺失项进行预测。如式(2-1)所示,子矩阵将被分解成用户特征矩阵和资源特征矩阵的乘积:
武汉理工大学硕士学位论文12.4.3实验结果为了评估在矩阵预填充阶段,流行度惩罚项对于预填充评分精度的影响,本文在不同的活跃用户和热门资源的选择比例下,对比了ESVD方法与本文提出的ESVD-P方法的填充评分精度的实验结果。如图2-4(a)所示,在T8的实验设定下,当活跃用户和热门资源的选择比例在5%-20%范围时,本文提出的ESVD-P矩阵预填充算法(在图中由蓝色表示)在填充评分的RMSE指标上要优于ESVD矩阵预填充算法(在图中由红色表示)。图中可以发现,当选择比例继续扩大时,对于挑选出的用户和资源,整体上的用户活跃度和资源流行度要更加趋于平均,因此流行度所带来的影响也逐渐消失。如图2-4(b)所示,本文提出的ESVD-P预填充算法在填充评分的MAE指标上同样要优于ESVD方法,结合RMSE指标进行综合分析,可以发现流行度惩罚项对于评分的平均误差影响较小,但显著降低了填充评分误差的波动幅度。(a)RMSE(b)MAE图2-4T8实验设定下矩阵预填充误差(a)RMSE(b)MAE图2-5T9实验设定下矩阵预填充误差如图2-5所示,在T9的实验设定下拥有相似的实验结果。当选择比例降低
【参考文献】:
期刊论文
[1]语义分析与TF-IDF方法相结合的新闻推荐技术[J]. 周由,戴牡红. 计算机科学. 2013(S2)
[2]推荐系统评价指标综述[J]. 朱郁筱,吕琳媛. 电子科技大学学报. 2012(02)
[3]流数据挖掘综述[J]. 孙玉芬,卢炎生. 计算机科学. 2007(01)
本文编号:3303587
【文章来源】:武汉理工大学湖北省 211工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
MovieLens1M数据集中电影评分数量分布
武汉理工大学硕士学位论文1图2-2MovieLens1M数据集中用户评分数量分布将上述挑选出的热门资源子矩阵与活跃用户子矩阵相结合,便得到最终的高密度子矩阵,以MovieLens1M数据集为例,如表2-1所示,前5%的活跃用户与前5%的热门资源构成的子评分矩阵中一共包含41,900个已知评分,缺失评分数量仅为17,702个,子矩阵的整体密度高达70.30%,要远远高于原始评分矩阵4.19%的密度。表2-1不同挑选比例下的子矩阵分析挑选比例评分数量缺失评分数量子矩阵密度5%41,90017,70270.30%10%128,813109,99553.94%15%226,243307,72742.37%20%322,887629,86533.89%2.3.2子矩阵缺失评分的预测由活跃用户与热门资源所组成的高密度子矩阵中包含丰富的数据信息,因此,使用基本的矩阵分解模型RegularizedSVD(RSVD)便能很好的学习到用户与资源的特征,从而对其中的缺失项进行预测。如式(2-1)所示,子矩阵将被分解成用户特征矩阵和资源特征矩阵的乘积:
武汉理工大学硕士学位论文12.4.3实验结果为了评估在矩阵预填充阶段,流行度惩罚项对于预填充评分精度的影响,本文在不同的活跃用户和热门资源的选择比例下,对比了ESVD方法与本文提出的ESVD-P方法的填充评分精度的实验结果。如图2-4(a)所示,在T8的实验设定下,当活跃用户和热门资源的选择比例在5%-20%范围时,本文提出的ESVD-P矩阵预填充算法(在图中由蓝色表示)在填充评分的RMSE指标上要优于ESVD矩阵预填充算法(在图中由红色表示)。图中可以发现,当选择比例继续扩大时,对于挑选出的用户和资源,整体上的用户活跃度和资源流行度要更加趋于平均,因此流行度所带来的影响也逐渐消失。如图2-4(b)所示,本文提出的ESVD-P预填充算法在填充评分的MAE指标上同样要优于ESVD方法,结合RMSE指标进行综合分析,可以发现流行度惩罚项对于评分的平均误差影响较小,但显著降低了填充评分误差的波动幅度。(a)RMSE(b)MAE图2-4T8实验设定下矩阵预填充误差(a)RMSE(b)MAE图2-5T9实验设定下矩阵预填充误差如图2-5所示,在T9的实验设定下拥有相似的实验结果。当选择比例降低
【参考文献】:
期刊论文
[1]语义分析与TF-IDF方法相结合的新闻推荐技术[J]. 周由,戴牡红. 计算机科学. 2013(S2)
[2]推荐系统评价指标综述[J]. 朱郁筱,吕琳媛. 电子科技大学学报. 2012(02)
[3]流数据挖掘综述[J]. 孙玉芬,卢炎生. 计算机科学. 2007(01)
本文编号:3303587
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3303587.html
最近更新
教材专著