基于Spark的并行推荐算法的研究与实现
本文关键词:基于Spark的并行推荐算法的研究与实现,,由笔耕文化传播整理发布。
【摘要】:随着互联网的迅猛发展,信息技术与经济社会的交融碰撞,引发了数据迅猛增长,显然我们已经进入了大数据时代。大数据时代在带来资讯极度丰富的同时也使得用户在面对海量数据时需要花费大量的时间去筛选自己真正需要的信息,信息超载的现象越来越明显。协同过滤算法作为解决信息超载的关键技术之一,虽然被广泛应用于视频音乐网站、电子商务等多个领域,但是仍然存在着预测准确度不理想、冷启动等问题。同时,面对日益增加的数据量,传统的协同过滤算法出现了可扩展性问题,无法满足海量数据的计算需求,分布式并行计算框架的出现为解决该问题提供了新的思路。Spark是新兴的通用并行计算框架,借助其内存计算的优势,成为近两年大数据处理领域的研究重点。本文拟研究协同过滤算法,针对其预测准确度不理想、冷启动等问题进行改进,并将改进算法在Spark平台下进行并行化设计与实现,从而进一步解决算法的可扩展性问题。主要工作包括以下几个方面:(1)分析了协同过滤中基于项目、Slope One算法的基本原理和具体计算流程以及算法存在的不足。(2)针对基于项目的协同过滤算法存在的项目冷启动以及评分数据稀疏情景下预测准确度不高的问题,本文引入了项目属性特征相似度。在计算项目相似度时将项目属性特征相似度与评分相似度进行组合,以此来减少数据稀疏对相似度计算的负面影响。实验结果表明,本文的改进算法相比传统方法预测准确度更高,并且在评分矩阵稀疏的情景下,效果更明显。(3)针对Slope One算法在预测评分时仅仅依赖用户对不同项目的评分差异而没有考虑项目以及用户间相似性的问题,本文通过引入用户项目之间的相关性以及项目之间的相似度对算法做了改进。实验结果表明,改进的Slope One算法相比传统方法提高了预测的准确度。(4)实现了基于项目协同过滤改进算法与Slope One改进算法在Spark平台的并行化。Speedup与Sizeup的实验结果表明,文中实现的算法并行性能良好,解决了算法可扩展性问题,同时提高了算法的运行效率。
【关键词】:Spark 并行化 Slope One 基于项目的协同过滤
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要6-7
- Abstract7-11
- 第1章 绪论11-16
- 1.1 研究背景和意义11-12
- 1.2 国内外研究现状12-14
- 1.2.1 推荐算法的研究现状12-13
- 1.2.2 分布式计算的研究现状13-14
- 1.3 本文的研究内容14
- 1.4 本文的组织结构14-16
- 第2章 相关技术与基本理论16-30
- 2.1 Spark计算框架16-22
- 2.1.1 Spark简介16-17
- 2.1.2 Spark RDD17-19
- 2.1.3 Spark运行模式和运行架构19-22
- 2.2 协同过滤推荐算法分析22-29
- 2.2.1 基于用户的协同过滤算法24-25
- 2.2.2 基于项目的协同过滤算法25-27
- 2.2.3 Slope One算法27-29
- 2.3 本章小结29-30
- 第3章 基于项目的协同过滤算法的改进与并行化实现30-42
- 3.1 基于项目的协同过滤算法存在的问题30-31
- 3.2 基于项目的协同过滤算法的改进设计31-34
- 3.3 基于项目的协同过滤改进算法的并行化实现34-41
- 3.4 本章小结41-42
- 第4章 Slope One算法的改进与并行化实现42-51
- 4.1 Slope One算法存在的问题42
- 4.2 Slope One算法的改进设计42-44
- 4.3 Slope One改进算法的并行化实现44-50
- 4.4 本章小结50-51
- 第5章 实验与结果分析51-62
- 5.1 实验环境51-53
- 5.1.1 实验软硬件环境51
- 5.1.2 实验数据51-52
- 5.1.3 Spark性能优化52-53
- 5.2 实验及结果分析53-61
- 5.2.1 预测准确度评测53-58
- 5.2.2 并行性能评测58-61
- 5.3 本章小结61-62
- 结论62-64
- 致谢64-65
- 参考文献65-69
- 攻读硕士学位期间发表的论文69
【相似文献】
中国期刊全文数据库 前10条
1 徐义峰;徐云青;刘晓平;;一种基于时间序列性的推荐算法[J];计算机系统应用;2006年10期
2 余小鹏;;一种基于多层关联规则的推荐算法研究[J];计算机应用;2007年06期
3 张海玉;刘志都;杨彩;贾松浩;;基于页面聚类的推荐算法的改进[J];计算机应用与软件;2008年09期
4 张立燕;;一种基于用户事务模式的推荐算法[J];福建电脑;2009年03期
5 王晗;夏自谦;;基于蚁群算法和浏览路径的推荐算法研究[J];中国科技信息;2009年07期
6 周珊丹;周兴社;王海鹏;倪红波;张桂英;苗强;;智能博物馆环境下的个性化推荐算法[J];计算机工程与应用;2010年19期
7 王文;;个性化推荐算法研究[J];电脑知识与技术;2010年16期
8 张恺;秦亮曦;宁朝波;李文阁;;改进评价估计的混合推荐算法研究[J];微计算机信息;2010年36期
9 夏秀峰;代沁;丛丽晖;;用户显意识下的多重态度个性化推荐算法[J];计算机工程与应用;2011年16期
10 杨博;赵鹏飞;;推荐算法综述[J];山西大学学报(自然科学版);2011年03期
中国重要会议论文全文数据库 前10条
1 王韬丞;罗喜军;杜小勇;;基于层次的推荐:一种新的个性化推荐算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 唐灿;;基于模糊用户心理模式的个性化推荐算法[A];2008年计算机应用技术交流会论文集[C];2008年
3 秦国;杜小勇;;基于用户层次信息的协同推荐算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 周玉妮;郑会颂;;基于浏览路径选择的蚁群推荐算法:用于移动商务个性化推荐系统[A];社会经济发展转型与系统工程——中国系统工程学会第17届学术年会论文集[C];2012年
5 苏日启;胡皓;汪秉宏;;基于网络的含时推荐算法[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
6 梁莘q
本文编号:387707
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/387707.html