基于Hadoop的聚类协同过滤推荐算法研究及应用
本文关键词:基于Hadoop的聚类协同过滤推荐算法研究及应用
更多相关文章: Hadoop K-means 协同过滤 MapReduce 矩阵分解 最大最小值
【摘要】:随着互联网的快速发展,网络数据量不断增加,已经进入了大数据时代。大量的信息和商品同时呈现在用户面前,使我们面临一个严重的问题-信息过载,而个性化推荐是解决该问题一个有效的方法,协同过滤方法是目前在实际推荐系统中应用最多的个性化推荐方法,它基于群体的偏好来为用户提供推荐。传统单机的协同过滤算法无论从效率上,还是从计算复杂度上都已无法满足海量信息的处理需要,云计算技术的发展为推荐算法提供了新的研究方向。因此,可以考虑利用结合大数据技术来应对算法扩展性等问题。本文对基于Hadoop大数据处理技术的聚类协同过滤推荐算法进行研究与实现,并对电影数据集进行应用分析。主要对Hadoop两大主要框架、经典聚类算法及推荐算法的相关概念进行了研究;提出基于Hadoop大数据处理技术的分布式聚类协同过滤推荐算法,来解决协同过滤算法应对数据稀疏性和算法的扩展性问题;对数据的稀疏性采用矩阵分解方法预处理初始数据,将预处理后的数据通过聚类算法来建立聚类模型,然后利用聚类模型和协同过滤算法形成推荐的候选空间,最后完成推荐。本文的工作重点总结:(1)对于常用的聚类算法做了研究分析,全面了解各类典型算法的优缺点,重点研究了K-means聚类算法。(2)对经典的推荐算法做了深入的研究分析,着重分析了协同过滤推荐算法。(3)针对数据的稀疏性采用矩阵分解算法预处理,改善数据稀疏性后利用改进的K-means聚类算法构建聚类模型。(4)结合K-means聚类模型与协同过滤推荐算法做混合推荐。(5)对K-means聚类算法、协同过滤推荐算法进行改进,使其能够适应MapReduce编程模型,进而达到对数据进行分布式处理的目的,以此来解决算法存在的可扩展性问题。(6)对混合推荐算法进行评测。本课题应用MovieLens数据集中的数据,通过在数据集上的应用分析,对算法做了验证,并对应用结果进行分析。应用分析表明,将Hadoop技术应用于聚类协同过滤推荐混合算法的实现,能够有效改善推荐系统的推荐质量并大大提高推荐效率,同时在云环境中具有良好可扩展性。
【关键词】:Hadoop K-means 协同过滤 MapReduce 矩阵分解 最大最小值
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要5-6
- Abstract6-11
- 第1章 绪论11-17
- 1.1 课题研究背景和意义11-13
- 1.2 课题的研究现状13-15
- 1.2.1 Hadoop的发展现状13
- 1.2.2 数据挖掘的研究现状13-14
- 1.2.3 推荐算法的研究现状14-15
- 1.3 课题的研究内容15-16
- 1.4 论文结构安排16-17
- 第2章 Hadoop相关技术17-25
- 2.1 Hadoop简介17-18
- 2.2 HDFS18-21
- 2.2.1 HDFS介绍18-19
- 2.2.2 HDFS的架构和工作原理19-21
- 2.2.3 HDFS数据存储的保证措施21
- 2.3 MapReduce的并行计算架构21-23
- 2.3.1 MapReduce体系架构概述21-22
- 2.3.2 MapReduce的工作流程22-23
- 2.4 本章小结23-25
- 第3章 K-means算法Map Reduce并行化设计25-39
- 3.1 聚类算法概述25-27
- 3.1.1 聚类分析的基本概念25-26
- 3.1.2 聚类算法中的距离度量26-27
- 3.2 聚类方法分类27-29
- 3.2.1 划分方法27-28
- 3.2.2 层次的方法28-29
- 3.2.3 基于密度的方法29
- 3.2.4 基于网格的方法29
- 3.2.5 基于模型的方法29
- 3.3 K-Means算法29-32
- 3.3.1 K-means算法介绍29-30
- 3.3.2 K-means算法性能分析30-32
- 3.4 聚类算法K-Means改进及其MapReduce并行化设计32-37
- 3.4.1 K-means算法改进32-33
- 3.4.2 最大最小值算法MapReduce设计33-34
- 3.4.3 基于最大最小值的K-means算法的MapReduce设计34-37
- 3.5 本章小结37-39
- 第4章 基于Hadoop的混合推荐算法39-54
- 4.1 推荐系统概述39-40
- 4.2 推荐系统的架构40-41
- 4.3 常用推荐算法研究41-46
- 4.3.1 基于内容的推荐41-42
- 4.3.2 基于关联规则的推荐42-43
- 4.3.3 协同过滤推荐43-46
- 4.4 协同过滤算法相识度度量与并行化46-48
- 4.4.1 相识度度量方法46-48
- 4.5 基于Hadoop的聚类协同过滤推荐算法48-53
- 4.5.1 矩阵分解预处理数据集49-51
- 4.5.2 基于聚类模型的协同过滤推荐51-53
- 4.6 算法扩展性验证53
- 4.7 本章小结53-54
- 第5章 Hadoop集群下MoviesLens数据集电影推荐54-65
- 5.1 Hadoop集群平台的搭建54-56
- 5.1.1 实验集群环境与架构54
- 5.1.2 Hadoop集群的配置54-56
- 5.2 电影数据集MoviesLens介绍56-57
- 5.3 常用评估标准57-58
- 5.3.1 精确度57-58
- 5.3.2 覆盖率58
- 5.4 实验设计与分析58-64
- 5.4.1 推荐算法中相识度的选取58-59
- 5.4.2 推荐算法中邻居大小的确定59-60
- 5.4.3 协同过滤推荐算法推荐质量的比较60-62
- 5.4.4 算法的应用性能评估62-64
- 5.5 本章小结64-65
- 第6章 总结与展望65-67
- 6.1 总结65-66
- 6.2 展望66-67
- 参考文献67-72
- 致谢72-73
- 附录A 攻读硕士学位期间发表的论文情况73-74
- 附录B 攻读学位期间参与科研工作情况74
【相似文献】
中国期刊全文数据库 前10条
1 徐义峰;徐云青;刘晓平;;一种基于时间序列性的推荐算法[J];计算机系统应用;2006年10期
2 余小鹏;;一种基于多层关联规则的推荐算法研究[J];计算机应用;2007年06期
3 张海玉;刘志都;杨彩;贾松浩;;基于页面聚类的推荐算法的改进[J];计算机应用与软件;2008年09期
4 张立燕;;一种基于用户事务模式的推荐算法[J];福建电脑;2009年03期
5 王晗;夏自谦;;基于蚁群算法和浏览路径的推荐算法研究[J];中国科技信息;2009年07期
6 周珊丹;周兴社;王海鹏;倪红波;张桂英;苗强;;智能博物馆环境下的个性化推荐算法[J];计算机工程与应用;2010年19期
7 王文;;个性化推荐算法研究[J];电脑知识与技术;2010年16期
8 张恺;秦亮曦;宁朝波;李文阁;;改进评价估计的混合推荐算法研究[J];微计算机信息;2010年36期
9 夏秀峰;代沁;丛丽晖;;用户显意识下的多重态度个性化推荐算法[J];计算机工程与应用;2011年16期
10 杨博;赵鹏飞;;推荐算法综述[J];山西大学学报(自然科学版);2011年03期
中国重要会议论文全文数据库 前10条
1 王韬丞;罗喜军;杜小勇;;基于层次的推荐:一种新的个性化推荐算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 唐灿;;基于模糊用户心理模式的个性化推荐算法[A];2008年计算机应用技术交流会论文集[C];2008年
3 秦国;杜小勇;;基于用户层次信息的协同推荐算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 周玉妮;郑会颂;;基于浏览路径选择的蚁群推荐算法:用于移动商务个性化推荐系统[A];社会经济发展转型与系统工程——中国系统工程学会第17届学术年会论文集[C];2012年
5 苏日启;胡皓;汪秉宏;;基于网络的含时推荐算法[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
6 梁莘q,
本文编号:845973
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/845973.html