基于Spark平台的实时流计算推荐系统的研究与实现
本文关键词:基于Spark平台的实时流计算推荐系统的研究与实现
更多相关文章: 冷启动问题 实时性问题 实时流计算 在线计算 推荐系统
【摘要】:用户在面对海量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低,这就是信息超载问题。推荐系统是一种解决信息超载问题非常有效的办法,它根据用户的信息、兴趣等,将用户感兴趣的信息或商品推荐给用户。然而,现有的推荐系统大多是通过定期计算来更新推荐结果,造成推荐结果不够精确,这就是推荐系统的实时性问题。另外,对于新加入的用户或商品由于缺少必要的数据,因此无法对其产生推荐,这就是所谓的冷启动问题。针对上述问题,本文旨在解决推荐算法的冷启动问题和推荐系统的实时性问题,并设计与实现一个基于Spark实时流计算的推荐系统,即根据实时数据更新推荐结果。本文的主要研究内容包括:(1)针对推荐算法的冷启动问题,提出基于聚类与特征映射的矩阵分解算法。该算法首先对用户/商品的属性信息进行聚类,得出新用户/新商品的k个最近邻。然后对新用户/新商品进行特征映射,用k近邻的特征信息计算出新用户/新商品的特征向量,有了这些特征向量就可以对新用户/新商品进行推荐,解决了算法的冷启动问题。实验表明本文提出的基于聚类与特征映射的矩阵分解算法的推荐结果更加精确。(2)针对推荐系统的实时性问题,设计一个能够实时计算的流处理架构。该架构把推荐系统分成离线计算和在线计算两部分,能够充分利用传统的离线推荐算法,并结合在线处理方法,提高推荐系统实时计算的能力。所设计的实时推荐系统采用Spark做在线处理,并且能够根据用户在线评分和历史评分数据集来实时计算,实现了推荐结果的实时更新。(3)基于Spark的实时流计算推荐系统的设计与实现。首先对实时流计算的推荐系统进行需求分析,包含功能需求分析、性能需求分析和总体架构分析。然后对系统进行设计,包括三个关键模块:一是对模拟用户评分模块进行设计,包含数据的范围、数据的格式和数据产生的频率及数量等。二是对基于Spark Streaming的实时流计算模块进行设计,包含实时流计算和一些关键性的功能的设计。三是基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和推荐商品等。最后完成了实时流计算的推荐系统的实现,主要实现模拟用户评分、实时流计算和推荐引擎三个主要功能。
【关键词】:冷启动问题 实时性问题 实时流计算 在线计算 推荐系统
【学位授予单位】:江苏大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 绪论11-16
- 1.1 研究背景和意义11-12
- 1.2 研究现状12-13
- 1.3 主要研究内容13-14
- 1.4 论文的组织结构14-16
- 第二章 相关工作16-29
- 2.1 冷启动问题16-17
- 2.2 实时性问题17-18
- 2.3 HDFS分布式文件系统18-20
- 2.3.1 数据块Block18-19
- 2.3.2 主从节点Namenode和Datanode19-20
- 2.4 HBase数据库20-22
- 2.4.1 基本概念20-21
- 2.4.2 数据模型21
- 2.4.3 自动分裂特性21-22
- 2.5 Thrift框架22-23
- 2.6 Spark生态系统23-28
- 2.6.1 Spark Core技术24-25
- 2.6.2 Spark Streaming技术25-26
- 2.6.3 MLBase/MLlib技术26-27
- 2.6.4 Spark与Hadoop的对比27-28
- 2.7 本章小结28-29
- 第三章 推荐算法冷启动问题的研究29-39
- 3.1 问题的提出29
- 3.2 相关工作29-33
- 3.2.1 K-means聚类算法29-30
- 3.2.2 特征映射算法30-31
- 3.2.3 基于矩阵分解的最小二乘算法31-33
- 3.3 基于聚类与特征映射的矩阵分解算法33-37
- 3.3.1 算法的基本思想33
- 3.3.2 算法33-36
- 3.3.3 算法分析36-37
- 3.4 实验及分析37-38
- 3.4.1 实验环境37
- 3.4.2 实验数据集37
- 3.4.3 实验分析37-38
- 3.5 本章小结38-39
- 第四章 实时流计算推荐系统的分析与设计39-52
- 4.1 推荐系统的实时流计算39-41
- 4.1.1 问题的提出39
- 4.1.2 流处理架构39-41
- 4.2 需求分析与总体架构41-44
- 4.2.1 功能需求41
- 4.2.2 性能需求41-42
- 4.2.3 智能推荐的整体流程及架构图42-44
- 4.3 推荐系统关键模块的设计44-51
- 4.3.1 模拟用户评分模块44-45
- 4.3.2 实时流计算模块45-48
- 4.3.3 推荐引擎模块48-51
- 4.4 本章小结51-52
- 第五章 实时流计算推荐系统的实现52-63
- 5.1 实时流计算的实现52-55
- 5.1.1 输入模块的实现52-53
- 5.1.2 处理模块的实现53-54
- 5.1.3 Dstream输出模块的实现54-55
- 5.2 推荐引擎的实现55-57
- 5.2.1 加载数据模块的实现56
- 5.2.2 模型训练模块的实现56-57
- 5.2.3 推荐模块的实现57
- 5.3 系统测试57-62
- 5.3.1 测试环境57-58
- 5.3.2 模拟用户评分58-59
- 5.3.3 测试用例59-61
- 5.3.4 测试结果61-62
- 5.4 本章小结62-63
- 第六章 总结和展望63-65
- 6.1 总结63-64
- 6.2 展望64-65
- 致谢65-66
- 参考文献66-70
- 攻读硕士学位期间发表的学术论文70
【相似文献】
中国期刊全文数据库 前10条
1 米可菲;张勇;邢春晓;蔚欣;;面向大数据的开源推荐系统分析[J];计算机与数字工程;2013年10期
2 脱建勇;王嵩;李秀;刘文煌;;精品课共享中的推荐系统框架与实现[J];计算机工程与设计;2006年17期
3 苏冠贤;张丽霞;林丕源;刘吉平;;生物信息学推荐系统的设计与实现[J];计算机应用研究;2007年05期
4 王改芬;;推荐系统研究综述[J];软件导刊;2007年23期
5 叶群来;;营销与网络推荐系统[J];电子商务;2007年10期
6 李媚;;个性化网络学习资源推荐系统研究[J];福建电脑;2008年12期
7 潘冉;姜丽红;;基于经济学模型的推荐系统的研究[J];计算机应用与软件;2008年03期
8 刘鲁;任晓丽;;推荐系统研究进展及展望[J];信息系统学报;2008年01期
9 刘小燕;陈艳丽;贾宗璞;沈记全;;基于增强学习的旅行计划推荐系统[J];计算机工程;2010年21期
10 曹畋;;智能推荐系统在知识浏览领域的应用[J];硅谷;2011年21期
中国重要会议论文全文数据库 前8条
1 张燕;李燕萍;;基于内容分析和点击率记录的混合音乐推荐系统[A];2009年通信理论与信号处理学术年会论文集[C];2009年
2 赵欣;寇纲;邬文帅;卢艳群;;基于时间密集性的推荐系统攻击检测[A];第六届(2011)中国管理学年会论文摘要集[C];2011年
3 张玉连;张波;张敏;;改进的个性化信息推荐系统的设计与实现[A];2005年全国理论计算机科学学术年会论文集[C];2005年
4 王君;许洁萍;;层次音乐推荐系统的研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
5 潘宇;林鸿飞;杨志豪;;基于用户聚类的电子商务推荐系统[A];第三届学生计算语言学研讨会论文集[C];2006年
6 尤忠彬;陈越;张英;朱扬勇;;基于Web服务的技术转移平台推荐系统研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 王国霞;刘贺平;李擎;;二部图影射及其在推荐系统中的应用[A];第25届中国控制与决策会议论文集[C];2013年
8 王雪;董爱华;吴怡之;;基于RFID技术的智能服装推荐系统设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
中国重要报纸全文数据库 前2条
1 ;大数据如何“落地”[N];中国新闻出版报;2014年
2 本报记者 邹大斌;大数据:电商新武器[N];计算机世界;2012年
中国博士学位论文全文数据库 前10条
1 周魏;推荐系统中基于目标项目分析的托攻击检测研究[D];重庆大学;2015年
2 王宏宇;商务推荐系统的设计研究[D];中国科学技术大学;2007年
3 杨东辉;基于情感相似度的社会化推荐系统研究[D];哈尔滨工业大学;2014年
4 曹渝昆;基于神经网络和模糊逻辑的智能推荐系统研究[D];重庆大学;2006年
5 王立才;上下文感知推荐系统若干关键技术研究[D];北京邮电大学;2012年
6 刘龙;一个能实现个性化实时路径推荐服务的推荐系统框架[D];中国科学技术大学;2014年
7 李涛;推荐系统中若干关键问题研究[D];南京航空航天大学;2009年
8 刘士琛;面向推荐系统的关键问题研究及应用[D];中国科学技术大学;2014年
9 李方方;非独立同分布推荐系统研究[D];北京理工大学;2014年
10 李晓建;基于语义的个性化资源推荐系统中关键技术研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱孔真;基于云计算的电子商务智能推荐系统研究[D];武汉理工大学;2014年
2 郭敬泽;基于赋权评分和Dpark的分布式推荐系统研究与实现[D];天津理工大学;2015年
3 周俊宇;信息推荐系统的研究与设计[D];江南大学;2015年
4 李炜;基于电子商务平台的保险推荐系统的设计与实现[D];复旦大学;2013年
5 车丰;基于排序主题模型的论文推荐系统[D];大连海事大学;2015年
6 秦大路;基于因式分解机模型的上下文感知推荐系统研究[D];郑州大学;2015年
7 徐霞婷;动态路网监控与导航推荐系统的设计与实现[D];苏州大学;2015年
8 黄学峰;基于Hadoop的电影推荐系统研究与实现[D];南京师范大学;2015年
9 路小瑞;基于Hadoop平台的职位推荐系统的设计与实现[D];上海交通大学;2015年
10 李爱宝;基于组合消费行为分析的团购推荐系统的设计与实现[D];哈尔滨工业大学;2015年
,本文编号:740906
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/740906.html