基于Hadoop的并行化协同过滤推荐算法研究
本文关键词:基于Hadoop的并行化协同过滤推荐算法研究
【摘要】:互联网的快速发展使得信息过载的现象日益明显,推荐系统作为重要的信息过滤工具应运而生。协同过滤推荐算法是当前实际系统中应用最多的个性化推荐方法。但随着推荐系统中用户和项目数量的大幅度增加,被评分的项目比例越来越小,使得用户-项目评分矩阵变得稀疏,从而造成传统协同过滤推荐算法的推荐精度降低。同时当前对协同过滤推荐算法的研究大多侧重于单机算法的设计与优化,随着推荐系统规模的不断扩大,传统的推荐算法大多都会遇到严重的计算瓶颈。因此,使用并行方法改进协同过滤推荐算法,从而应对大规模数据十分必要。本研究针对协同过滤算法的数据稀疏性和可扩展性问题,首先提出了基于非精确增广拉格朗日乘子法(IALM)和填充可信度的协同过滤算法。在此基础上,深入研究Hadoop的HDFS分布式系统和MapReduce编程思想,对算法进行MapReduce并行化的设计与实现,最后搭建了基于Hadoop的电影推荐原型系统。主要研究工作及成果如下:(1)提出了基于IALM和填充可信度的协同过滤算法。针对数据稀疏性问题,通过IALM算法对稀疏的评分矩阵进行填充,并提出了填充可信度的概念。考虑到用户的兴趣会随着时间变化,将填充可信度与指数遗忘函数融合,对填充后的矩阵进行加权修正,进而提出了基于IALM和填充可信度的协同过滤算法。实验结果表明,在邻居数目取10的情况下,该算法较传统协同过滤算法其平均绝对误差降低了10.98%,说明该算法在数据稀疏情况下可以明显提高推荐质量。(2)设计了基于IALM和填充可信度的协同过滤算法的MapReduce并行化方案。针对协同过滤算法的可扩展性问题,通过对MapReduce编程模型的研究,将算法分解为7个MapReduce作业流程,便于在Hadoop平台上进行分布式计算,实验结果表明,在MovieLens-10M数据集上,3个节点的Hadoop集群比单节点的运算时间能减小约66.14%,验证了在Hadoop平台下实现的基于IALM和填充可信度的协同过滤推荐算法能够有效地提高推荐系统的可扩展性。(3)搭建了基于Hadoop的电影推荐原型系统。经过系统需求分析、设计与实现等流程,将经过MapReduce并行化的基于IALM和填充可信度的协同过滤算法、Hadoop、MATLAB等结合起来,在多台计算机组成的Hadoop集群上,实现了基于Hadoop的电影推荐系统。
【关键词】:推荐系统 协同过滤 填充可信度 并行化
【学位授予单位】:西北农林科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 绪论10-16
- 1.1 研究背景和意义10-11
- 1.2 国内外研究现状11-13
- 1.2.1 推荐系统及推荐算法研究现状11-12
- 1.2.2 推荐算法的并行化研究现状12-13
- 1.3 研究内容和技术路线13-15
- 1.4 论文的组织结构15-16
- 第二章 相关技术介绍16-25
- 2.1 推荐系统16
- 2.2 常用推荐算法16-21
- 2.2.1 基于内容的推荐17
- 2.2.2 基于关联规则的推荐17
- 2.2.3 协同过滤推荐17-21
- 2.3 Hadoop平台介绍21-24
- 2.3.1 HDFS分布式文件系统22-23
- 2.3.2 MapReduce计算模型23-24
- 2.4 小结24-25
- 第三章 基于IALM和填充可信度的协同过滤算法25-37
- 3.1 IALM算法与指数遗忘函数25-27
- 3.1.1 IALM算法25-26
- 3.1.2 指数遗忘函数26-27
- 3.2 基于IALM和填充可信度的协同过滤算法27-31
- 3.2.1 基于IALM算法的协同过滤算法27-28
- 3.2.2 填充可信度28-29
- 3.2.3 基于IALM和填充可信度的协同过滤算法29-31
- 3.2.4 算法分析31
- 3.3 实验与分析31-36
- 3.3.1 实验数据31-32
- 3.3.2 评价标准32
- 3.3.3 实验方案32-33
- 3.3.4 实验结果及其分析33-36
- 3.4 本章小结36-37
- 第四章 基于IALM和填充可信度的协同过滤算法的并行化37-52
- 4.1 矩阵填充的MapReduce处理流程设计37-42
- 4.2 加权评分数据的MapReduce处理流程设计42-43
- 4.3 评分均值及均值差的MapReduce处理流程设计43-44
- 4.4 项目k近邻的MapReduce处理流程设计44-46
- 4.5 预测评分的MapReduce处理流程设计46-47
- 4.6 实验与分析47-50
- 4.6.1 实验数据47
- 4.6.2 评价标准47-48
- 4.6.3 实验方案48
- 4.6.4 实验结果及其分析48-50
- 4.7 本章小结50-52
- 第五章 基于Hadoop的推荐系统设计52-58
- 5.1 系统需求分析52
- 5.1.1 需求概述52
- 5.1.2 运行环境概述52
- 5.2 系统设计52-53
- 5.3 系统实现53-56
- 5.3.1 Hadoop平台及MATLAB运行环境的配置55
- 5.3.2 系统搭建55-56
- 5.3.3 推荐算法部署56
- 5.4 系统推荐结果对比分析56-57
- 5.4.1 实验方案56
- 5.4.2 实验结果与分析56-57
- 5.5 本章小结57-58
- 第六章 总结与展望58-60
- 6.1 总结58
- 6.2 展望58-60
- 参考文献60-64
- 致谢64-65
- 作者简介65
【相似文献】
中国期刊全文数据库 前10条
1 杨风召;;一种基于特征表的协同过滤算法[J];计算机工程与应用;2007年06期
2 王岚;翟正军;;基于时间加权的协同过滤算法[J];计算机应用;2007年09期
3 曾子明;张李义;;基于多属性决策和协同过滤的智能导购系统[J];武汉大学学报(工学版);2008年02期
4 张富国;;用户多兴趣下基于信任的协同过滤算法研究[J];小型微型计算机系统;2008年08期
5 侯翠琴;焦李成;张文革;;一种压缩稀疏用户评分矩阵的协同过滤算法[J];西安电子科技大学学报;2009年04期
6 廖新考;;基于用户特征和项目属性的混合协同过滤推荐[J];福建电脑;2010年07期
7 沈磊;周一民;李舟军;;基于心理学模型的协同过滤推荐方法[J];计算机工程;2010年20期
8 徐红;彭黎;郭艾寅;徐云剑;;基于用户多兴趣的协同过滤策略改进研究[J];计算机技术与发展;2011年04期
9 焦晨斌;王世卿;;基于模型填充的混合协同过滤算法[J];微计算机信息;2011年11期
10 郑婕;鲍海琴;;基于协同过滤推荐技术的个性化网络教学平台研究[J];科技风;2012年06期
中国重要会议论文全文数据库 前10条
1 沈杰峰;杜亚军;唐俊;;一种基于项目分类的协同过滤算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 周军锋;汤显;郭景峰;;一种优化的协同过滤推荐算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 董全德;;基于双信息源的协同过滤算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 张光卫;康建初;李鹤松;刘常昱;李德毅;;面向场景的协同过滤推荐算法[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
5 李建国;姚良超;汤庸;郭欢;;基于认知度的协同过滤推荐算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 王明文;陶红亮;熊小勇;;双向聚类迭代的协同过滤推荐算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 胡必云;李舟军;王君;;基于心理测量学的协同过滤相似度方法(英文)[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 林丽冰;师瑞峰;周一民;李月雷;;基于双聚类的协同过滤推荐算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 罗喜军;王韬丞;杜小勇;刘红岩;何军;;基于类别的推荐——一种解决协同推荐中冷启动问题的方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
10 黄创光;印鉴;汪静;刘玉葆;王甲海;;不确定近邻的协同过滤推荐算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
中国博士学位论文全文数据库 前10条
1 纪科;融合上下文信息的混合协同过滤推荐算法研究[D];北京交通大学;2016年
2 李聪;电子商务推荐系统中协同过滤瓶颈问题研究[D];合肥工业大学;2009年
3 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
4 罗恒;基于协同过滤视角的受限玻尔兹曼机研究[D];上海交通大学;2011年
5 薛福亮;电子商务协同过滤推荐质量影响因素及其改进机制研究[D];天津大学;2012年
6 高e,
本文编号:781099
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/781099.html