协同过滤算法的设计及并行化实现与应用
发布时间:2024-02-24 02:56
协同过滤算法在推荐系统中有着广泛应用,但是该算法在一些实际应用场景下忽略了用户对项目的评分中所隐含的共同喜好,以及项目间的评分均值的差异对最终的项目间相似度的影响。本文首先以解决上述问题为目标,对传统的相似度计算公式进行改进。然后以提高基于项目的协同过滤推荐算法的执行效率为目标,针对传统协同过滤推荐算法近邻搜索时间过长的问题,引入聚类算法来缩小最近邻居集范围,设计了一种融合聚类及相似度的协同过滤推荐算法CS-CF。为了进一步提高推荐系统的实时性和可扩展性,本文借助主流的大数据平台Spark在迭代计算以及内存计算方面的优势,设计了CS-CF算法在Spark平台上的并行化方案。该方案通过合理利用RDD并行化计算的特点、RDD的缓存机制以及Spark中的广播变量,实现了对项目间相似度计算过程和评分计算过程的并行化。最后,利用MovieLens公开数据集对CS-CF算法的并行化方案进行性能测试,并开发了一个电影推荐原型系统,将CSCF算法应用于其中,检验研究成果的可用性。实验及应用结果均表明:本文所设计的融合聚类及相似度的协同过滤推荐算法CS-CF及其在Spark平台上的并行化方案在准确性、时...
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
本文编号:3908409
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
图2.2协同过滤推荐系统的推荐流程
面”模块承担着用户与推荐系统之间的交互。UI系统根据用户的操系统,推荐系统根据用户的要求将结果处理完毕后通过UI界面向用的对用户的友好程度也直接决定着用户体验,是推荐系统中不可或过滤推荐原理分析统的目的是为用户进行精准高效的信息推送,它可以依据用户的兴户对个性化推荐的需求。....
图2.3K-Center算法步骤
与作为数据挖掘十大算法之一与K-Means算法一致,只是在迭代过距离样本点均值最近的一个样本点,本文对K-Center算法的选择主要是考目,因此可以使得这种基于原始项目首先随机选择出K个质心(ClusterC始的簇集;接着遍历样本中所有其他相似度最大的节点,将样本点....
图2.4Spark组织架构
电大学专业学位硕士研究生学位论文第二章相关技术概述与分析义之分,广义上的Spark架构指的是由资源管理、数据管理、数据处理、应用四层组成生态系统;狭义上的Spark则仅仅指的是Spark的数据处理框架,该部分属于广义Spa中最为核心的一部分。Spark的组织....
图2.5Spark数据处理模型
较于传统的大数据开发框架,Spark之所以能有如此巨大的提升,作为Spark的核心分布式数据集RDD起到了至关重要的作用。RDD是Spark中最为基本的数据抽象个由可分区、不可变、内部元素可并行化计算的集合。首先,RDD由分区组成,分数据、进行计算的最基本单位,....
本文编号:3908409
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3908409.html