基于Hadoop的并行混合推荐算法及工具研究
本文关键词:基于Hadoop的并行混合推荐算法及工具研究
【摘要】:随着计算机技术的发展,互联网已经融入到人们生活的方方面面,用户可以通过互联网轻而易举的获取大量信息,然而在享受这种便利的同时,用户也开始遇到信息“过载”的问题。面对海量的信息,用户往往难以取舍,并从中提取出真正需要的内容。搜索引擎技术,通过对关键字的检索,在一定程度上缓解了这一问题。然而,基于搜索引擎的信息检索技术,会给用户呈现大量无关或者不感兴趣的内容。如何在信息过载的情况下给用户提供更个性化更贴近用户需求的信息,成为了互联网发展中的热点问题。而推荐系统,被认为是当前解决以上问题,给用户提供更加个性化信息最有效的工具之一。推荐问题从根本上说就是从用户的角度出发,代替用户去评估其从未看过的产品,使用户不只是被动的网页浏览者,而成为主动参与者。准确、高效的推荐系统可以挖掘用户的偏好和需求,从而成为发现用户潜在的消费倾向,为其提供个性化服务。协同过滤算法是一种基于统计的推荐系统算法,由于该算法模型简单、训练复杂度低、推荐性能优秀等特点,广泛应用于各类推荐系统之中。它通过收集用户的历史行为信息,通过相似性的计算,来搜索与当前用户具有相同或者相近兴趣爱好的其他用户,形成近邻。然后,根据近邻用户的历史行为,例如用户对物品的历史评价信息,来预测当前用户对物品的评价或者可能的行为。然而,传统的协同过滤算法,在较好的满足了推荐系统的需求的同时,也面临着一些系列的挑战,例如数据的稀疏性、相似性度量的准确性、实时性和可扩展性等。如何应对这些挑战,是推荐系统需要解决的重要问题。本文的主要工作如下:1.本文针对传统相似性度量方法对于内容信息利用不充分,度量不准确的问题,提出了一种基于配对的相似性度量方法。该方法利用物品间的属性信息,在物品属性的纵向和和横向两个不同层面分别求出物品的属性内相似度和属性间相似度。属性内相似度和属性间相似度再进一步结合成配对相似度,利用配对相似度结合基于内存或基于模型的协同过滤算法构建了混合推荐算法。实验结果表明,该通过相似度度量方法构建的混合推荐算法能有效地提高推荐的精确度。2.本文针对海量数据环境以及配对相似度本身的计算复杂度造成的可扩展性问题,选取了MapReduce分布式计算模型和Hadoop分布式计算系统作为应对策略,利用分布式计算的办法来加速配对相似度的计算速率。实验结果表明,该并行化方法提高了在海量数据下基于配对相似度的混合推荐算法的可扩展性。3.本文介绍了一个基于云计算平台的海量数据工具箱的设计和实现,这里本文将会介绍该工具箱的四个功能模块,它们是集群管理模块、数据集管理模块、算法管理模块与任务管理模块,然后以推荐算法为例介绍了用户使用该工具箱的详细流程。
【关键词】:推荐算法 并行化 配对相似度
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要4-6
- Abstract6-14
- 第一章 绪论14-23
- 1.1 研究背景14-15
- 1.2 国内外研究现状15-19
- 1.2.1 推荐系统15-17
- 1.2.2 云计算及算法并行化17-19
- 1.3 面临的问题和挑战19-21
- 1.3.1 推荐系统19-20
- 1.3.2 云计算及算法并行化20-21
- 1.4 本文的主要工作和安排21-23
- 第二章 推荐系统算法介绍23-33
- 2.1 基于内容的推荐算法23-24
- 2.2 基于内存的协同过滤算法24-28
- 2.2.1 基于用户的协同过滤算法24-27
- 2.2.2 基于物品的协同过滤算法27-28
- 2.3 基于模型的协同过滤算法28-31
- 2.3.1 基于聚类的协同过滤算法28-29
- 2.3.2 基于潜在语义分析的协同过滤算法29-31
- 2.4 混合的推荐算法及其他算法31
- 2.5 推荐算法评估31-32
- 2.6 本章小结32-33
- 第三章 云计算相关技术33-39
- 3.1 Hadoop和MapReduce33-34
- 3.1.1 Hadoop的起源和发展33
- 3.1.2 MapRedcue的设计目标33-34
- 3.1.3 MapRedcue编程模型介绍34
- 3.2 下一代MapReduce框架34-37
- 3.2.1 Apache YARN35-36
- 3.2.2 Facebook Corona36-37
- 3.3 Spark37-38
- 3.4 本章小结38-39
- 第四章 基于配对相似度的混合推荐算法39-48
- 4.1 配对相似度39-41
- 4.2 基于配对相似度的推荐算法41-42
- 4.3 基于配对相似度的混合推荐算法42-43
- 4.4 实验设计及结果分析43-47
- 4.4.1 实验数据43-45
- 4.4.2 实验设置45
- 4.4.3 实验结果及分析45-47
- 4.5 本章小结47-48
- 第五章 配对相似度计算的并行化实现48-62
- 5.1 总体框架48-49
- 5.2 算法描述49-59
- 5.2.1 并行化计算属性内相似度(Parallelized-IaAVS)49-54
- 5.2.2 并行化计算属性间相似度(Parallelized-IeAVS)54-58
- 5.2.3 并行化计算配对相似度(Parallelized-COS)58-59
- 5.3 实验设计及结果分析59-60
- 5.3.1 实验环境59
- 5.3.2 实验设置59
- 5.3.3 实验结果及分析59-60
- 5.4 本章小结60-62
- 第六章 基于云计算平台的海量数据挖掘工具箱62-71
- 6.1 工具箱的需求和目标62-63
- 6.2 模块设计63-65
- 6.2.1 集群控制模块63-64
- 6.2.2 数据集管理模块64
- 6.2.3 算法管理模块64-65
- 6.2.4 任务管理及可视化模块65
- 6.3 用户操作流程65-66
- 6.4 在工具箱中使用推荐算法66-70
- 6.4.1 启动/配置Hadoop66-68
- 6.4.2 上传数据集68-69
- 6.4.3 选择算法/配置参数69
- 6.4.4 提交任务/获取结果69-70
- 6.5 本章小结70-71
- 第七章 总结和展望71-73
- 7.1 总结71-72
- 7.2 展望72-73
- 参考文献73-78
- 简历与科研成果78-79
- 致谢79-80
【相似文献】
中国期刊全文数据库 前10条
1 徐义峰;徐云青;刘晓平;;一种基于时间序列性的推荐算法[J];计算机系统应用;2006年10期
2 余小鹏;;一种基于多层关联规则的推荐算法研究[J];计算机应用;2007年06期
3 张海玉;刘志都;杨彩;贾松浩;;基于页面聚类的推荐算法的改进[J];计算机应用与软件;2008年09期
4 张立燕;;一种基于用户事务模式的推荐算法[J];福建电脑;2009年03期
5 王晗;夏自谦;;基于蚁群算法和浏览路径的推荐算法研究[J];中国科技信息;2009年07期
6 周珊丹;周兴社;王海鹏;倪红波;张桂英;苗强;;智能博物馆环境下的个性化推荐算法[J];计算机工程与应用;2010年19期
7 王文;;个性化推荐算法研究[J];电脑知识与技术;2010年16期
8 张恺;秦亮曦;宁朝波;李文阁;;改进评价估计的混合推荐算法研究[J];微计算机信息;2010年36期
9 夏秀峰;代沁;丛丽晖;;用户显意识下的多重态度个性化推荐算法[J];计算机工程与应用;2011年16期
10 杨博;赵鹏飞;;推荐算法综述[J];山西大学学报(自然科学版);2011年03期
中国重要会议论文全文数据库 前10条
1 王韬丞;罗喜军;杜小勇;;基于层次的推荐:一种新的个性化推荐算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 唐灿;;基于模糊用户心理模式的个性化推荐算法[A];2008年计算机应用技术交流会论文集[C];2008年
3 秦国;杜小勇;;基于用户层次信息的协同推荐算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 周玉妮;郑会颂;;基于浏览路径选择的蚁群推荐算法:用于移动商务个性化推荐系统[A];社会经济发展转型与系统工程——中国系统工程学会第17届学术年会论文集[C];2012年
5 苏日启;胡皓;汪秉宏;;基于网络的含时推荐算法[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
6 梁莘q,
本文编号:941173
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/941173.html