协同过滤推荐算法的改进与分布式计算实现
发布时间:2017-04-25 14:05
本文关键词:协同过滤推荐算法的改进与分布式计算实现,由笔耕文化传播整理发布。
【摘要】:信息化时代每个人能够获得的信息量非常巨大,这给整个社会技术进步做出了巨大贡献的同时也带了一些不便:怎样找到对自己有价值的信息呢?之前的解决方法是开发搜索引擎来搜索信息,但是这种手段对于那些隐藏的、有潜在价值的信息无能为力,为了弥补这一缺陷,智能推荐引擎应运而生。随着数据挖掘技术的不断发展,越来越多的互联网公司开始向用户提供推荐物品的应用,人们在浏览电子商务网站时,每当点开某个商品的链接,就会发现网站同时会在醒目的地方标示了“您可能还会感兴趣”的若干商品,同样,在浏览像imdb、豆瓣电影等网站时,同样会看到“您可能还想看”的若干电影,这就是网站的智能推荐功能。如果向用户推送的物品恰好符合用户的喜好,引起了用户的兴趣的话,那么用户很有可能会更快捷地找到想购买的物品或是想看的电影,网站的整个用户体验和经济收益就得到了很大提升,此过程中,智能推荐系统起到了很好的“引路”作用。实现这样的推荐系统的基本思路就是根据用户已经表现出的兴趣、需求等信息,通过程序建立用户的偏好模型,并由此得出用户很有可能会感兴趣的物品。与非常常见的搜索引擎相比,推荐系统给出了个性化的服务,减少了用户自己检索所需物品的麻烦,具有非常广阔的研究价值和发展前景。本文所要实现的是目前应用最为广泛的协同过滤智能推荐算法,所谓协同过滤,就如同很多人在买东西、看电影时会征求朋友、家人的意见一样,即是在整个用户群体中寻找到与目标用户兴趣比较相似的若干用户,或是在整个商品群体中寻找到比较相似的若干商品,借助它们来给出推荐。本文的推荐系统实现使用Java语言编程,开发环境为集成了开源项目Mahout和Maven的Eclipse,在实现协同过滤推荐系统之后,本文对现有的协同过滤算法性能进行了评价和比较,在现有算法基础上结合基于内容的推荐设计了一种新算法I-ST-CF算法,改善了推荐系统的冷启动问题和数据稀疏性问题,并用实验验证新的算法确实可以提升推荐的性能,最后为了适应处理超大数据集(Large DataSet)级别的数据要求,基于Linux操作系统和Hadoop实现了推荐系统的分布式计算,并且用实验证明了增加集群中计算机的数目可以加快运算速度,提升推荐效率。
【关键词】:推荐系统 协同过滤 Mahout Hadoop 分布式计算
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
- 摘要8-10
- ABSTRACT10-12
- 第一章 绪论12-16
- 1.1 推荐系统简介12
- 1.2 智能推荐系统的发展历程与现状12-14
- 1.3 主要创新点和内容安排14-16
- 第二章 协同过滤的基本思想和原理16-26
- 2.1 协同过滤的基本概念16
- 2.2 协同过滤的数学原理16-25
- 2.2.1 用户-物品评分矩阵16-17
- 2.2.2 两种推荐模式简介17-19
- 2.2.3 相似度的计算19-22
- 2.2.4 获得邻居22-24
- 2.2.5 做出推荐24-25
- 2.3 协同过滤存在的优缺点25-26
- 第三章 协同过滤推荐的程序实现26-40
- 3.1 开发环境简介26
- 3.2 Mahout简介26-28
- 3.3 协同过滤的程序实现28-40
- 3.3.1 原始数据28-29
- 3.3.2 数据结构29-30
- 3.3.3 相似度的计算30-35
- 3.3.4 做出推荐35-38
- 3.3.5 小结38-40
- 第四章 推荐算法性能比较40-45
- 4.1 算法评价方法40
- 4.2 确定评价指标40-41
- 4.3 算法性能比较41-45
- 第五章 协同过滤算法的改进45-55
- 5.1 Item的标签相似性分析45-48
- 5.1.1 Item的多标签性45-46
- 5.1.2 标签相似性的计算46-47
- 5.1.3 Item的标签相似性对推荐性能提升的分析47-48
- 5.2 I-ST-CF算法设计与分析48-50
- 5.2.1 I-ST-CF算法设计48-50
- 5.2.2 I-ST-CF算法分析50
- 5.3 实验验证50-55
- 第六章 基于Hadoop实现推荐的分布式计算55-75
- 6.1 Hadoop分布式系统概述55-58
- 6.1.1 实现分布式计算的必要性55
- 6.1.2 Hadoop分布式框架的优越性55-58
- 6.1.3 Hadoop分布式系统版本概述58
- 6.2 Hadoop分布式系统架构详解58-65
- 6.2.1 HDFS文件系统59-60
- 6.2.2 MapReduce计算模式60-63
- 6.2.3 Hadoop典型应用场景描述63-65
- 6.3 Hadoop实现分布式的I-ST-CF算法65-69
- 6.4 实验验证69-75
- 6.4.1 实验设计69-70
- 6.4.2 实验结果70-75
- 第七章 总结与展望75-76
- 参考文献76-81
- 致谢81-82
- 附件82
【参考文献】
中国期刊全文数据库 前1条
1 刘建国;周涛;郭强;汪秉宏;;个性化推荐系统评价方法综述[J];复杂系统与复杂性科学;2009年03期
本文关键词:协同过滤推荐算法的改进与分布式计算实现,由笔耕文化传播整理发布。
,本文编号:326438
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/326438.html