面向协同过滤推荐算法的均模型研究
本文关键词:面向协同过滤推荐算法的均模型研究,,由笔耕文化传播整理发布。
【摘要】:随着互联网的飞速发展,近年来电子商务得到了迅猛发展,交易数据激剧增加,即使采用目前最有效的Hadoop、Spark等数据处理技术也仍然存在不少问题,例如一些在评测集上效果好的数据挖掘算法,或者难以实现,或者用于真实交易数据难以获得理想效果。探索面向真实应用的大数据处理方法是目前急需解决的课题。本文先对推荐系统的基本原理做了简要介绍,并对当前应用最为广泛的基于项目的协同过滤(Item-Based Collaborative Filtering,IBCF)算法作了深入的分析。然后,介绍了均模型对数据压缩的基本原理,并面向协同过滤推荐算法对均模型进行了较为系统的研究。最后,通过实验验证了基于均模型的IBCF算法在MapReduce框架下的运行效果。具体来说,主要完成了如下四方面内容:(1)协同过滤推荐算法评测研究通过对协同过滤推荐算法的分析,发现计算任务主要集中在项目相似性计算阶段,接着对各种项目相似性计算方法进行了评测,同时指出余弦相似性计算方法精度最高。而后对推荐算法的不同评价指标进行了评测研究,分析了各个评价指标的评估价值。(2)均模型及其改进研究在本课题组对均模型的前期研究基础上,对均模型的基本原理与性质进行了分析总结,并指出了原均模型对数据的处理存在分层模糊和信息失真的缺点。针对以上不足,提出了一种改进的均模型。改进的均模型在数据压缩过程中,更好的体现了分层的思想,克服了信息失真问题。在应用于IBCF算法的实验当中,改进的均模型有更理想的效果。(3)均模型的增量扩展研究互联网中的数据每天都在不断地增长,各类数据应用系统必须不断融入新增数据以保证系统的服务质量。例如推荐系统中每天都会有大量的新增数据产生,推荐系统必须及时将新增数据加入运算,从而保证推荐质量。本文以IBCF算法为应用背景,针对均模型的增量更新问题,提出了一种基于增量均模型的实现算法(Incremental Mean Model,Incremental MM)。Incremental MM通过项目评分预统计为各项目建立评分统计映射表,较好地支持了均模型的增量转换。在Movie Lens数据集上的对比实验结果表明,基于Incremental MM的IBCF算法增量更新效率较高,且推荐精度没有损失。(4)基于均模型IBCF算法的并行化实现为评估均模型在大数据处理上的应用效果,本文基于MapReduce框架设计了基于均模型的IBCF算法,并基于Netflix数据集,在Hadoop集群上进行了实验。实验结果表明,增量均模型能够在较大规模的数据处理过程中取得较好的应用效果。
【关键词】:大数据 均模型 增量扩展 协同过滤 MapReduce
【学位授予单位】:太原理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要3-5
- ABSTRACT5-10
- 第一章 绪论10-18
- 1.1 研究背景及意义10-12
- 1.2 国内外研究现状12-16
- 1.2.1 协同过滤推荐技术的发展与研究现状12-14
- 1.2.2 推荐系统的增量扩展研究现状14-15
- 1.2.3 大数据处理技术的研究进展及其在推荐系统的应用15-16
- 1.3 课题研究内容及论文组织结构16-18
- 1.3.1 课题研究内容16-17
- 1.3.2 论文组织结构17-18
- 第二章 推荐系统与相关技术研究18-32
- 2.1 推荐系统概述18-20
- 2.1.1 推荐系统的基本理论依据18
- 2.1.2 推荐系统的原理与架构18-19
- 2.1.3 推荐系统的分类19-20
- 2.2 协同过滤推荐技术研究20-27
- 2.2.1 协同过滤推荐算法20-23
- 2.2.2 IBCF算法23-24
- 2.2.3 项目相似性计算24-25
- 2.2.4 IBCF算法的评分预测方法研究25-27
- 2.3 IBCF算法评测研究27-31
- 2.3.1 预测准确度27-28
- 2.3.2 分类准确度28-30
- 2.3.3 排序准确度30-31
- 2.3.4 准确度之外的评价指标31
- 2.4 本章小结31-32
- 第三章 均模型及其改进研究32-44
- 3.1 均模型的原理与性质32-35
- 3.1.1 均模型的基本原理32-35
- 3.1.2 均模型的基本性质35
- 3.2 改进的均模型算法35-38
- 3.2.1 原始均模型算法存在的问题35-37
- 3.2.2 均模型的改进策略37-38
- 3.3 实验与分析38-42
- 3.3.1 实验38-39
- 3.3.2 实验分析39-42
- 3.4 本章小结42-44
- 第四章 均模型的增量扩展研究44-52
- 4.1 支持增量的均模型实现算法44-46
- 4.2 实验与分析46-51
- 4.2.1 实验设计46-47
- 4.2.2 实验准备47-48
- 4.2.3 结果与分析48-51
- 4.3 本章小结51-52
- 第五章 均模型的并行化设计与实现52-62
- 5.1 Map Reduce52-53
- 5.2 基于Map Reduce框架的均模型并行化设计53-57
- 5.2.1 基于改进均模型的IBCF并行化算法53-56
- 5.2.2 增量均模型的并行化方法56-57
- 5.3 实验与分析57-60
- 5.3.1 实验环境简介57-58
- 5.3.2 实验设计58-59
- 5.3.3 实验结果与分析59-60
- 5.4 基于Spark实现增量均模型的初步探索60-61
- 5.5 本章小结61-62
- 第六章 总结与展望62-64
- 6.1 工作总结62-63
- 6.2 研究展望63-64
- 参考文献64-68
- 致谢68-70
- 攻读硕士学位期间发表的学术论文目录70
【相似文献】
中国期刊全文数据库 前10条
1 杨风召;;一种基于特征表的协同过滤算法[J];计算机工程与应用;2007年06期
2 王岚;翟正军;;基于时间加权的协同过滤算法[J];计算机应用;2007年09期
3 曾子明;张李义;;基于多属性决策和协同过滤的智能导购系统[J];武汉大学学报(工学版);2008年02期
4 张富国;;用户多兴趣下基于信任的协同过滤算法研究[J];小型微型计算机系统;2008年08期
5 侯翠琴;焦李成;张文革;;一种压缩稀疏用户评分矩阵的协同过滤算法[J];西安电子科技大学学报;2009年04期
6 廖新考;;基于用户特征和项目属性的混合协同过滤推荐[J];福建电脑;2010年07期
7 沈磊;周一民;李舟军;;基于心理学模型的协同过滤推荐方法[J];计算机工程;2010年20期
8 徐红;彭黎;郭艾寅;徐云剑;;基于用户多兴趣的协同过滤策略改进研究[J];计算机技术与发展;2011年04期
9 焦晨斌;王世卿;;基于模型填充的混合协同过滤算法[J];微计算机信息;2011年11期
10 郑婕;鲍海琴;;基于协同过滤推荐技术的个性化网络教学平台研究[J];科技风;2012年06期
中国重要会议论文全文数据库 前10条
1 沈杰峰;杜亚军;唐俊;;一种基于项目分类的协同过滤算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 周军锋;汤显;郭景峰;;一种优化的协同过滤推荐算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 董全德;;基于双信息源的协同过滤算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 张光卫;康建初;李鹤松;刘常昱;李德毅;;面向场景的协同过滤推荐算法[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
5 李建国;姚良超;汤庸;郭欢;;基于认知度的协同过滤推荐算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 王明文;陶红亮;熊小勇;;双向聚类迭代的协同过滤推荐算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 胡必云;李舟军;王君;;基于心理测量学的协同过滤相似度方法(英文)[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 林丽冰;师瑞峰;周一民;李月雷;;基于双聚类的协同过滤推荐算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 罗喜军;王韬丞;杜小勇;刘红岩;何军;;基于类别的推荐——一种解决协同推荐中冷启动问题的方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
10 黄创光;印鉴;汪静;刘玉葆;王甲海;;不确定近邻的协同过滤推荐算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
中国博士学位论文全文数据库 前10条
1 李聪;电子商务推荐系统中协同过滤瓶颈问题研究[D];合肥工业大学;2009年
2 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
3 罗恒;基于协同过滤视角的受限玻尔兹曼机研究[D];上海交通大学;2011年
4 薛福亮;电子商务协同过滤推荐质量影响因素及其改进机制研究[D];天津大学;2012年
5 高e
本文编号:327808
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/327808.html