当前位置:主页 > 科技论文 > 软件论文 >

基于稀疏数据的协同过滤推荐算法研究及实现

发布时间:2021-06-03 18:22
  协同过滤能够根据个人先前的行为数据信息,准确预测个人将来所需的数据。随着计算机科学技术的普及和应用,在互联网中产生了大规模的数据,给人们的选择带来了极大的困难。因此,研究协同过滤推荐具有理论意义和应用价值。本文在详细分析协同过滤推荐现存问题的基础上,针对稀疏数据问题进行研究,主要工作包括:第一,针对数据稀疏环境下相似性判断策略失效的问题,本文提出基于用户评分偏好的策略。首先,分析用户间评分值信任关系,在皮尔逊相关系数的基础上引入用户评分值信任度,在计算用户间相似性时使用评分值信任度加权;其次,通过挖掘用户评分值背后隐含的用户真实偏好信息,找出高分人群和低分人群,构建用户评分偏好模型;最后,综合改良相似性评判和评分估测方法,更加准确的评判用户间的相似性,以得到更加紧凑的用户类别和更加准确的估测结果。第二,针对稀疏数据问题和用户兴趣的模糊性问题,本文提出融合模糊聚类的策略。模糊C均值算法在进行欧氏距离计算时,仅仅考虑用户对电影的评分数据,这样显的过于片面。本文定义用户间的属性距离,把用户间的属性距离和评分值间的欧氏距离进行加权融合,计算用户间的综合距离;针对模糊C均值算法对孤立点很敏感,且... 

【文章来源】:重庆邮电大学重庆市

【文章页数】:78 页

【学位级别】:硕士

【部分图文】:

基于稀疏数据的协同过滤推荐算法研究及实现


MovieLens100k和MovieLens1m中电影类型信息

分布信息


出的把电影按照类型划分是一种有可行的解决思路。2. 对于用户年龄数据处理为了使实验结果具备可比性和有效性,本文把两个数据集中用户的年龄按照相同的年龄段区间进行划分,将处理后的数据信息以数据表和图的形式分别进行展示。表 4.7 MovieLens 100k 中年龄分布信息年龄段 25 18 35 45 50 56 1用户个数 310 198 194 80 73 52 36占比(保留三位小数) 0.329 0.21 0.206 0.085 0.077 0.055 0.038表 4.8 MovieLens 1m 中年龄分布信息年龄段 25 35 18 45 50 56 1用户个数 2096 1193 1103 550 496 380 222占比(保留三位小数) 0.347 0.198 0.183 0.091 0.082 0.063 0.037

数据信息,职业信息


(a) MovieLens 100k 中用户职业信息 (b) MovieLens 100k 中用户职业信息图 4.4 MovieLens 100k 和 MovieLens 1m 中用户职业数据信息本文通过对数据集中的数据分析发现,用户集中在个别职业中,学生成为了观影的主要人群,这个很容易解释,因为学生有周末和寒暑假,观看电影成为一种娱乐方式。这也和本文通过对年龄分析得出的结论相吻合,学生大多处于 25 岁年龄段区间中,说明了本文提出的考虑职业属性距离是有意义的。

【参考文献】:
期刊论文
[1]基于K-means聚类算法优化方法的研究[J]. 刘叶,吴晟,周海河,吴兴蛟,韩林峄.  信息技术. 2019(01)

硕士论文
[1]基于谱聚类SM算法的协同过滤推荐算法研究[D]. 陈清华.江西农业大学 2018
[2]基于用户的协同过滤算法改进研究及并行化实现[D]. 李嵩.西北农林科技大学 2018
[3]协同过滤推荐系统中的数据稀疏性及冷启动问题研究[D]. 李晓菊.华东师范大学 2018
[4]基于改进K-means聚类和RBM的协同过滤算法[D]. 耿瑞.吉林大学 2018
[5]基于模糊聚类的并行化推荐算法设计与研究[D]. 杨业.浙江理工大学 2018
[6]基于兴趣度和聚类的动态加权关联规则挖掘的研究[D]. 谢诗浩.湖南大学 2016
[7]基于张量分解的推荐算法研究[D]. 黄丹.北京交通大学 2016
[8]面向数据稀疏的协同过滤推荐算法研究与优化[D]. 黄正.华南理工大学 2012



本文编号:3211012

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3211012.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户63a6c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com