面向用户数据特性的协同过滤推荐方法研究

发布时间:2025-02-07 19:04
  互联网时代,数据呈爆炸式增长,前所未有的数据量远远超过受众的接收和处理能力,因此,从海量复杂数据中有效获取关键性有用信息成为必须解决的问题.面对信息过载问题,人们迫切需要一种高效的信息过滤系统,“推荐系统”应运而生.20世纪90年代以来,尽管推荐系统在理论、方法和应用方面取得了系列重要进展,但数据的稀疏性与长尾性、用户行为模式挖掘、可解释性、社会化推荐等问题仍然是其面临的重要挑战.进一步地,伴随互联网及信息技术的持续飞速发展,用户规模与项目数量急剧增长,相应地,用户行为数据的稀疏性、长尾性问题更加凸显.面对上述挑战,本文针对数据稀疏性挑战下的“经典相似性度量的失效问题”“近邻推荐对稀疏数据的敏感性问题”、数据长尾性挑战下的“可解释性问题”“社会化信息融合问题”开展协同过滤推荐方法的创新性研究.主要研究成果概括如下:(1)针对用户评分矩阵稀疏情境下经典相似性度量的失效问题,提出了基于极端评分行为相似度的近邻推荐方法.面对数据稀疏情境下共同评分项目极少现象引致的经典相似性度量失效或度量不准确问题,着眼于用户共同极端评分行为的深入分析,建立了用户之间的极端评分行为指数;通过将极端评分行为指数作...

【文章页数】:123 页

【学位级别】:博士

【部分图文】:

图2.1评分值的分布(a)ML-100k(b)ML-latest-small

图2.1评分值的分布(a)ML-100k(b)ML-latest-small

图2.1绘制了评分数据集中各种评分的百分比柱状图.从图2.1上可以看出,ML-100k数据集上5分和1分的评分数量占所有评分的27.31%,ML-latest-small数据集上5分和1分的评分数量占所有评分的27.24%.同时,这里还统计了评1分和5分的用户数,在ML-100k....


图2.2两个用户共同极端评分比例(a)ML-100k(b)ML-latest-small

图2.2两个用户共同极端评分比例(a)ML-100k(b)ML-latest-small

图2.1评分值的分布(a)ML-100k(b)ML-latest-small图2.2绘制了用户共同极端评分对数占所有共同评分对数的比例.具体地,我们将用户共同评分的项目数分为(0,10],[11,20],[21,30],[31,40],[41,50]五个区间段.每个柱状分别表示在....


图2.3在ML-100k数据集上近邻参数k对MAE的影响

图2.3在ML-100k数据集上近邻参数k对MAE的影响

最后,对参数进行分析.在近邻推荐中,目标用户的近邻个数k是一个重要的参数.本章从10到100,以10个为间隔进行了不同近邻个数的实验,实验结果以曲线的形式汇总到图2.3~2.6.从图中可以看出,当k=20时,预测结果最好,这似乎违背了人们的常规认识.通常,我们认为近邻越多越好.然....


图2.4在ML-100k数据集上近邻参数k对RMSE的影响

图2.4在ML-100k数据集上近邻参数k对RMSE的影响

图2.3在ML-100k数据集上近邻参数k对MAE的影响图2.5在ML-latest-small数据集上近邻参数k对MAE的影响



本文编号:4031160

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/4031160.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f2904***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com