基于Hadoop平台的协同过滤推荐算法研究
本文选题:协同过滤推荐算法 切入点:Hadoop 出处:《广西师范大学》2017年硕士论文
【摘要】:随着大数据时代的到来,人们在分享大数据带来益处的同时,也遭遇到大数据带来的麻烦。当搜索某种信息时,相关信息可能会铺天盖地而来,面对这些海量数据,人们往往无法快速定位到自己想要的那部分信息,用户需要花费很多时间和精力去甄别信息的有效性和可用性。人们对信息的使用效率随着数据量的增长呈现出急速下降的趋势,这就是著名的信息过载(information overload)问题。虽然谷歌、百度等搜索引擎提供了一些帮助,但依然未能解决人们对信息的个性化需求。在电子商务(如Amazon、淘宝、京东等)和社交网络(如Twitter、新浪微博等)出现后,人们对信息的个性化需求更为强烈。于是,怎么在大数据背景下帮助人们快速找到其感兴趣的、满意的信息,已成为学术界和企业界关注的热点。为了解决这些社会需求,研究者们提出了个性化推荐系统,这是一种通过挖掘用户历史数据,然后向用户提供其很有可能感兴趣的信息的一种智能系统。个性化推荐系统是否能提供用户满意的服务取决于个性化推荐算法,好的算法才能推荐出好的结果。在众多个性化推荐算法中,目前最成功的策略之一是协同过滤算法。尽管协同过滤算法取得了很好的效果,但还是存在着不少缺点,如数据稀疏问题,可扩展性问题,冷启动问题等。为了进一步提高个性化推荐效果,本文在阅读大量相关文献并深入学习协同过滤推荐技术的基础上,对已有的协同过滤推荐算法进行改进,提出了基于用户评分差异计算用户相似度和基于项目聚类评分预测的协同过滤算法,并在Hadoop平台上实现所提出的算法。具体的研究内容如下:(1)提出了一种新的用户相似度计算方法一基于用户评分差异的相似度计算方法,该方法综合考虑了用户之间的评分差异、评分偏好和共同评分项目数三个因素。此方法挖掘并应用更多的用户评分信息,特别是应用了均值以下的用户评分信息,有效提高了用户偏好相似性的准确率,并能够缓解数据稀疏性带来的推荐质量下降的问题。(2)改进传统的基于近邻评分预测方法(NNSP),提出基于项目聚类的评分预测方法(ICBSP),实现对未评分项目的评分预测。该方法的核心思想有两个,一个是考虑邻居用户对待预测项目的评分可以有多个评分值,在其中选择最大者作用户最终评分值;另一个是使用项目权重因子和用户相似度共同作为权重值来调节各个不同的待预测项目在特定用户中应该占有的权重。这样可以有效地提高评分预测的准确度,提升推荐质量。(3)本文还在Hadoop平台上对基于用户评分差异相似度计算方法和基于项目聚类评分预测方法的协同过滤推荐算法进行分布式实现,即利用MapReduce计算模型实现协同过滤算法的分布式计算,把在协同过滤算法中耗时的计算过程以离线的方式计算,把不耗时的过程以在线方式计算。这样不仅可以解决算法的可扩展性问题,还在一定程度上解决了在海量数据的条件下信息推荐的实时性问题。(4)本文在Movie Lens提供的电影数据集上对所提出的个性化协同算法进行了实验,结果显示本文提出的方法在推荐效果方面明显优于几个已有的方法。
[Abstract]:......
【学位授予单位】:广西师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 徐义峰;陈春明;徐云青;;一种基于分类的协同过滤算法[J];计算机系统应用;2007年01期
2 杨风召;;一种基于特征表的协同过滤算法[J];计算机工程与应用;2007年06期
3 王岚;翟正军;;基于时间加权的协同过滤算法[J];计算机应用;2007年09期
4 曾子明;张李义;;基于多属性决策和协同过滤的智能导购系统[J];武汉大学学报(工学版);2008年02期
5 张富国;;用户多兴趣下基于信任的协同过滤算法研究[J];小型微型计算机系统;2008年08期
6 侯翠琴;焦李成;张文革;;一种压缩稀疏用户评分矩阵的协同过滤算法[J];西安电子科技大学学报;2009年04期
7 廖新考;;基于用户特征和项目属性的混合协同过滤推荐[J];福建电脑;2010年07期
8 沈磊;周一民;李舟军;;基于心理学模型的协同过滤推荐方法[J];计算机工程;2010年20期
9 徐红;彭黎;郭艾寅;徐云剑;;基于用户多兴趣的协同过滤策略改进研究[J];计算机技术与发展;2011年04期
10 焦晨斌;王世卿;;基于模型填充的混合协同过滤算法[J];微计算机信息;2011年11期
相关会议论文 前10条
1 沈杰峰;杜亚军;唐俊;;一种基于项目分类的协同过滤算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 周军锋;汤显;郭景峰;;一种优化的协同过滤推荐算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 董全德;;基于双信息源的协同过滤算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 张光卫;康建初;李鹤松;刘常昱;李德毅;;面向场景的协同过滤推荐算法[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
5 李建国;姚良超;汤庸;郭欢;;基于认知度的协同过滤推荐算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 王明文;陶红亮;熊小勇;;双向聚类迭代的协同过滤推荐算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 胡必云;李舟军;王君;;基于心理测量学的协同过滤相似度方法(英文)[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 林丽冰;师瑞峰;周一民;李月雷;;基于双聚类的协同过滤推荐算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 罗喜军;王韬丞;杜小勇;刘红岩;何军;;基于类别的推荐——一种解决协同推荐中冷启动问题的方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
10 黄创光;印鉴;汪静;刘玉葆;王甲海;;不确定近邻的协同过滤推荐算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
相关博士学位论文 前10条
1 纪科;融合上下文信息的混合协同过滤推荐算法研究[D];北京交通大学;2016年
2 程殿虎;基于协同过滤的社会网络推荐系统关键技术研究[D];中国海洋大学;2015年
3 于程远;基于QoS的Web服务推荐技术研究[D];上海交通大学;2015年
4 段锐;融合文本内容与情境信息的协同过滤推荐方法研究[D];合肥工业大学;2017年
5 李聪;电子商务推荐系统中协同过滤瓶颈问题研究[D];合肥工业大学;2009年
6 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
7 罗恒;基于协同过滤视角的受限玻尔兹曼机研究[D];上海交通大学;2011年
8 薛福亮;电子商务协同过滤推荐质量影响因素及其改进机制研究[D];天津大学;2012年
9 高e,
本文编号:1687157
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/1687157.html