基于聚类的协同过滤推荐算法研究
本文关键词:基于聚类的协同过滤推荐算法研究
更多相关文章: 云模型 二叉树 协同过滤 聚类算法 Spark
【摘要】:随着Internet和移动终端快速发展和迅速普及,互联网数据呈爆炸性地增长,出现了“信息过载”问题。如何在海量数据里找到用户真正感兴趣的信息并将其推荐给用户成为了业界研究的热点。推荐系统能帮助用户挖掘海量数据里深层次潜在的信息,帮助用户快速获取需要的内容,从而被广泛应用。协同过滤是当前较成功的推荐算法之一,其简单的模型概念和实现过程备受大型企业青睐。但是,协同过滤也存在着冷启动、数据稀疏、计算效率以及系统可扩展性等方面的问题。针对协同过滤存在的冷启动和数据稀疏问题,本文引入李德毅院士提出的云模型概念。云模型属于不确定人工智能领域,主要是将多维向量映射至三维向量,使用期望、熵和超熵等数学特征进行量化,这也使得问题从局部扩展到全局,从而降低数据稀疏和冷启动带来的负面影响。另外,本文结合云模型提出一种改进的相似度计算模型,该计算模型可以更好地描述用户(项目)间的相似性。最后,在计算云特征时,还考虑用户的偏好因素,如时间因素、评分因素等。针对协同过滤存在的系统计算效率、可扩展性问题,本文提出一种基于二叉树的聚类算法。协同过滤计算效率低下的原因是在计算最近邻时,需计算目标用户与所有用户的相似性,从而获得与目标用户最相似的用户集。因此使用聚类算法减少近邻比较次数成为研究热点。K-Means算法不仅受限于初始中心和K值的设定,而且还存在用户不能同归属于多类别等方面的问题,故本文提出一种改进聚类算法。其主要是将数据结构二叉树和聚类算法K-Means相结合,形成一种新的层次聚类算法。最后,本文将基于二叉树的聚类算法和云模型相融合,形成一种基于聚类的改进推荐算法。在计算过程中由于结点之间的无关联性,本文引入基于内存的分布式计算框架Spark,并将本文算法在该平台上并行实现。经由实验证明,本文算法不仅可提升准确性,还能够通过并行化从而提高系统可扩展性。本文在模拟现实集群环境下,对提出的基于聚类的协同过滤算法进行测试,主要是用于评估推荐算法的稳定性、准确性以及响应时间,为该推荐算法进行了比较科学有效的评估。对比实验结果发现,本文提出的基于聚类的协同过滤算法在稳定性、精确性、高效性以及可扩展性等方面均表现优异,满足算法要求。
【关键词】:云模型 二叉树 协同过滤 聚类算法 Spark
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要4-5
- ABSTRACT5-13
- 第一章 绪论13-19
- 1.1 课题背景13
- 1.2 国内外研究现状13-15
- 1.3 研究意义15
- 1.4 研究内容和创新点15-17
- 1.5 论文结构及内容安排17-19
- 第二章 相关概念与技术19-25
- 2.1 推荐系统19-20
- 2.1.1 协同过滤算法20
- 2.2 聚类分析20-21
- 2.2.1 K-Means算法21
- 2.3 相似度计算模型21-22
- 2.4 存在问题22-24
- 2.4.1 协同过滤存在的问题22-23
- 2.4.2 K-Means算法存在的问题23-24
- 2.5 本章小结24-25
- 第三章 基于云模型的推荐算法25-31
- 3.1 云模型25-26
- 3.1.1 云模型概念25
- 3.1.2 云模型定义25-26
- 3.2 修正的相似度计算模型26-27
- 3.3 偏好因素27-28
- 3.3.1 时间因素27-28
- 3.3.2 评分因素28
- 3.4 构造云特征28-29
- 3.5 云模型应用29-30
- 3.6 本章小结30-31
- 第四章 基于二叉树的聚类算法31-37
- 4.1 二叉树31
- 4.2 K-FBT算法31-33
- 4.3 簇内凝聚度33-34
- 4.4 层次遍历34-36
- 4.5 本章小结36-37
- 第五章 基于云模型与K-FBT的协同过滤算法37-47
- 5.1 算法流程37-38
- 5.2 预测评分38
- 5.3 合并结果38-40
- 5.4 最终评分40-41
- 5.5 分布式实现41-44
- 5.5.1 Spark41-42
- 5.5.2 CF-CMBT并行实现42-44
- 5.6 关键技术44-45
- 5.7 本章小结45-47
- 第六章 实验设计与结果分析47-55
- 6.1 实验环境47
- 6.2 实验数据47
- 6.3 实验评估指标47-48
- 6.4 实验设计与实验结果48-52
- 6.5 实验分析52-53
- 6.6 本章小结53-55
- 总结与展望55-57
- 参考文献57-61
- 攻读学位期间发表的论文61-65
- 致谢65
【参考文献】
中国期刊全文数据库 前10条
1 陈平华;陈传瑜;;基于满二叉树的二分K-means聚类并行推荐算法[J];计算机工程与科学;2015年08期
2 陈平华;陈传瑜;;基于云模型的用户双重聚类推荐算法[J];计算机工程与科学;2015年07期
3 胡俊;胡贤德;程家兴;;基于Spark的大数据混合计算模型[J];计算机系统应用;2015年04期
4 余南华;李兰芳;王玲;杨洪耕;谭丹;;基于云模型的谐波电流异常检测[J];中国电机工程学报;2014年25期
5 李克潮;凌霄娥;;云模型与用户聚类的个性化推荐[J];计算机应用;2013年10期
6 冯智明;苏一丹;覃华;邓海;;基于遗传算法的聚类与协同过滤组合推荐算法[J];计算机技术与发展;2014年01期
7 尹航;常桂然;王兴伟;;采用聚类算法优化的K近邻协同过滤算法[J];小型微型计算机系统;2013年04期
8 冯勇;李军平;徐红艳;党晓婉;;基于社会网络分析的协同推荐方法改进[J];计算机应用;2013年03期
9 张仕斌;许春香;;基于云模型的信任评估方法研究[J];计算机学报;2013年02期
10 王晓堤;桑婧;;基于云模型的时间修正协同过滤推荐算法[J];计算机工程与科学;2012年12期
中国硕士学位论文全文数据库 前1条
1 余善红;基于社会网络的个性化推荐系统关键技术研究[D];国防科学技术大学;2011年
,本文编号:779043
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/779043.html