基于Spark技术的Hybrid推荐算法的研究与应用
发布时间:2021-11-12 01:22
互联网技术的飞速发展使得当今进入大数据时代,爆炸性增长的数据量也使得“信息过载”问题日益严峻,如何快速高效地从过量信息中筛选过滤出有用信息成为当前困扰人们的一个难题,由此,推荐系统应运而生。传统推荐系统的工作原理是利用过往数据发现不同用户的兴趣偏好特征,依赖这种功能为用户进行个性化推荐,但当其面临海量数据时,传统推荐算法需要消耗大量时间,可能无法满足用户需求。在这种形势下,分布式Spark技术的实现能够有效地解决这一技术缺陷。面对传统推荐算法在应用中暴露出的稀疏性、冷启动、可扩展性差等实际问题,本文在Spark技术的支撑下,结合传统的协同过滤推荐算法进行改进,并在此基础上构建了一个Hybrid推荐模型,可应用在电影推荐领域,使得推荐效果明显改善。本文主要研究内容如下:(1)简述了推荐算法和Spark技术相关理论知识,重点分析了协同过滤推荐算法的分类、推荐原理及其相应特性,并阐述了Spark核心技术及其工作架构。(2)基于邻域的协同过滤推荐算法的研究与改进。针对相似性计算只依据评分信息的单一性,提出包含用户特征的局部相似性和全局相似性概念相融合的改进相似度模型,对基于用户的协同过滤算法进...
【文章来源】:曲阜师范大学山东省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
推荐系统流程图
第2章相关技术概述7图2.1推荐系统流程图推荐算法在推荐系统中扮演着“主角”的形象,是体现推荐特性的主要影响因素。目前使用最普遍的推荐算法可以分为三大类:基于内容的推荐、协同过滤推荐及混合推荐。其中最基础的是协同过滤推荐算法,又可分为基于邻域和模型的协同过滤推荐,具体分类如图2.2所示:图2.2协同过滤算法分类
第2章相关技术概述82.1.2基于内容的推荐算法基于内容(Content-based,CB)的推荐是一种较早的推荐算法,主要利用用户过去感兴趣的物品来推荐与其类似的物品给用户。CB推荐能够依据物品的内容描述将其抽象为不同意义的特征,以此来计算用户兴趣和物品的相似度,进而为用户进行推荐,其详细步骤包括三部分:物品属性表达、特征学习、生成推荐。物品属性表达一般选择空间向量模型来将文本抽象为特征词,一般选择TD-IDF[34](TermFrequency-InverseDocumentFrequency)计算特征的重要程度;特征学习中主要采用的学习方法包括最近邻(KNN)算法、决策树方法、朴素贝叶斯算法等。图2.3是CB推荐的一个实例。图2.3基于内容的推荐算法由于基于内容的推荐每个用户的属性都是根据其自身对物品的兴趣偏好获取的,从而保证了用户的独立性,避免了其他用户行为的干扰;同时,基于内容的推荐并不涉及评分信息,数据稀疏性不会对推荐结果造成影响;此外若有新的物品加入到推荐系统中即可被立时推荐,一定程度上解决了冷启动的问题。但基于内容的推荐存在特征提取较难的问题,在实际中抽取的特征只能代表其某些方面,并不能表示全部特征,因此可能会出现两个不同物品所提取出的特征相同的情况而无法进行区分;另一方面,CB算法无法利用潜在的用户兴趣,具有明显的局限性;CB算法是利用用户兴趣偏好为来实现的,而新用户加入系统后,行为偏好是未知的,因此不能为新用户进行准确推荐。2.1.3协同过滤推荐算法协同过滤算法(CollaborativeFilter,CF)起初由Goldberg等人在1992年提出,其推
【参考文献】:
期刊论文
[1]关联规则推荐的高效分布式计算框架[J]. 李昌盛,伍之昂,张璐,曹杰. 计算机学报. 2019(06)
[2]融合社交网络的单类个性化协同排序算法[J]. 李改,陈强,李磊,潘进财. 计算机科学. 2017(02)
[3]协同过滤推荐技术综述[J]. 冷亚军,陆青,梁昌勇. 模式识别与人工智能. 2014(08)
[4]推荐系统评价指标综述[J]. 朱郁筱,吕琳媛. 电子科技大学学报. 2012(02)
硕士论文
[1]基于长尾理论的物品协同过滤推荐算法研究[D]. 袁煦聪.安徽理工大学 2019
[2]一种新型混合推荐模型的设计与实现[D]. 郭正凯.北京邮电大学 2019
[3]个性化电影推荐系统的研究与设计[D]. 郝亮.电子科技大学 2019
[4]基于混合协同过滤的电影推荐系统的设计与实现[D]. 汪瑜彬.北京工业大学 2016
[5]基于Spark平台推荐系统研究[D]. 杨志伟.中国科学技术大学 2015
[6]基于上下文的信息推荐系统研究[D]. 周浩.西安电子科技大学 2014
[7]HDFS分布式元数据管理框架的研究与实现[D]. 韩诗楠.东北大学 2011
本文编号:3489924
【文章来源】:曲阜师范大学山东省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
推荐系统流程图
第2章相关技术概述7图2.1推荐系统流程图推荐算法在推荐系统中扮演着“主角”的形象,是体现推荐特性的主要影响因素。目前使用最普遍的推荐算法可以分为三大类:基于内容的推荐、协同过滤推荐及混合推荐。其中最基础的是协同过滤推荐算法,又可分为基于邻域和模型的协同过滤推荐,具体分类如图2.2所示:图2.2协同过滤算法分类
第2章相关技术概述82.1.2基于内容的推荐算法基于内容(Content-based,CB)的推荐是一种较早的推荐算法,主要利用用户过去感兴趣的物品来推荐与其类似的物品给用户。CB推荐能够依据物品的内容描述将其抽象为不同意义的特征,以此来计算用户兴趣和物品的相似度,进而为用户进行推荐,其详细步骤包括三部分:物品属性表达、特征学习、生成推荐。物品属性表达一般选择空间向量模型来将文本抽象为特征词,一般选择TD-IDF[34](TermFrequency-InverseDocumentFrequency)计算特征的重要程度;特征学习中主要采用的学习方法包括最近邻(KNN)算法、决策树方法、朴素贝叶斯算法等。图2.3是CB推荐的一个实例。图2.3基于内容的推荐算法由于基于内容的推荐每个用户的属性都是根据其自身对物品的兴趣偏好获取的,从而保证了用户的独立性,避免了其他用户行为的干扰;同时,基于内容的推荐并不涉及评分信息,数据稀疏性不会对推荐结果造成影响;此外若有新的物品加入到推荐系统中即可被立时推荐,一定程度上解决了冷启动的问题。但基于内容的推荐存在特征提取较难的问题,在实际中抽取的特征只能代表其某些方面,并不能表示全部特征,因此可能会出现两个不同物品所提取出的特征相同的情况而无法进行区分;另一方面,CB算法无法利用潜在的用户兴趣,具有明显的局限性;CB算法是利用用户兴趣偏好为来实现的,而新用户加入系统后,行为偏好是未知的,因此不能为新用户进行准确推荐。2.1.3协同过滤推荐算法协同过滤算法(CollaborativeFilter,CF)起初由Goldberg等人在1992年提出,其推
【参考文献】:
期刊论文
[1]关联规则推荐的高效分布式计算框架[J]. 李昌盛,伍之昂,张璐,曹杰. 计算机学报. 2019(06)
[2]融合社交网络的单类个性化协同排序算法[J]. 李改,陈强,李磊,潘进财. 计算机科学. 2017(02)
[3]协同过滤推荐技术综述[J]. 冷亚军,陆青,梁昌勇. 模式识别与人工智能. 2014(08)
[4]推荐系统评价指标综述[J]. 朱郁筱,吕琳媛. 电子科技大学学报. 2012(02)
硕士论文
[1]基于长尾理论的物品协同过滤推荐算法研究[D]. 袁煦聪.安徽理工大学 2019
[2]一种新型混合推荐模型的设计与实现[D]. 郭正凯.北京邮电大学 2019
[3]个性化电影推荐系统的研究与设计[D]. 郝亮.电子科技大学 2019
[4]基于混合协同过滤的电影推荐系统的设计与实现[D]. 汪瑜彬.北京工业大学 2016
[5]基于Spark平台推荐系统研究[D]. 杨志伟.中国科学技术大学 2015
[6]基于上下文的信息推荐系统研究[D]. 周浩.西安电子科技大学 2014
[7]HDFS分布式元数据管理框架的研究与实现[D]. 韩诗楠.东北大学 2011
本文编号:3489924
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3489924.html
最近更新
教材专著