协同过滤系统的数据稀疏性问题研究
本文关键词:协同过滤系统的数据稀疏性问题研究,,由笔耕文化传播整理发布。
【摘要】:推荐系统是解决信息过载问题的有效方案,已经广泛应用于电子商务、社交网络、音乐社区和电影社区等领域。近年来,协同过滤推荐技术,因其思路简单易实现、数据依赖性低、推荐结果准确等优点,已经成为推荐系统领域中应用最为广泛的技术之一。协同过滤推荐系统主要分为基于内存的方法和基于模型的方法,但是这些算法都有稀疏性、冷启动和扩展性等问题。本文主要为缓解数据稀疏性问题展开了如下工作:(1)提出一种新颖的基于项目候选集的协同过滤算法(CI-CF)。CI-CF算法基于用户协同过滤,引入用户之间的非对称影响度和支持度,并考虑到用户对项目的偏好程度,提出了项目候选集的概念,同时利用项目信息熵对未评分项目集合进行二次修正,得到候选项目集合。基于MovieLens和netflix数据集的实验表明,相比近三年来多个比较流行的算法(如:AC-PCC算法,RA-CF算法),CI-CF算法在推荐结果的准确率、召回率和F1值上都具有较大的优势,有效地降低了用户评分稀疏性问题带来的负面影响,显著提高了推荐系统的推荐质量。(2)提出了基于好友关系和标签的混合协同过滤算法(FT-CF)。首先分析好友之间的关系网络,通过关系传播机制快速寻找关系网络中与目标用户兴趣爱好相似的用户,并找到符合目标用户需要的商品;然后,利用TF-IDF的思想,从用户历史标签记录中挖掘该用户的兴趣爱好;最后将两者有效地结合,以进一步缓解数据的稀疏性问题。基于lastfm数据集的实验表明,FT-CF算法比近三年来较流行的算法(如:PRT-CF算法和UCTRA算法)在准确率和召回率上都具有较大优势。(3)全面总结了对使用标签信息数据、评分数据和用户/项目属性数据等不同种类数据信息的算法,并详细介绍、实现和实验比较了基于标签和协同过滤的个性化资源推荐、基于近邻双聚类的协同过滤top-N推荐系统和基于耦合对象相似度的项目推荐算法。基于MovieLenslOM数据集的实验表明,当推荐系统获得用户/项目的信息越多,我们对用户的了解就越多,就越容易把握用户的兴趣爱好,所以将多方面的数据信息进行有效的融合,有助于提高推荐系统的推荐质量。
【关键词】:推荐系统 协同过滤 标签 社交网络 数据稀疏性
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要4-5
- ABSTRACT5-13
- 第一章 绪论13-19
- 1.1 研究背景及意义13-14
- 1.2 国内外研究现状14-16
- 1.2.1 国外研究现状14-15
- 1.2.2 国内研究现状15-16
- 1.3 协同过滤所面临的问题16-17
- 1.4 论文的主要工作和组织结构17-19
- 1.4.1 本文的主要工作17-18
- 1.4.2 本文的组织结构18-19
- 第二章 经典的协同过滤算法19-32
- 2.1 协同过滤算法19-27
- 2.1.1 基于用户的k-最近邻算法20-23
- 2.1.2 基于项目昀k-最近邻算法23-25
- 2.1.3 Slope One算法25-27
- 2.2 相似度度量27-29
- 2.2.1 余弦相似性度量27-28
- 2.2.2 欧氏距离相似性28-29
- 2.2.3 Pearson相关系数29
- 2.2.4 jaccard系数29
- 2.3 协同过滤的评价标准29-31
- 2.3.1 预测准确度30
- 2.3.2 分类准确性30-31
- 2.4 本章小结31-32
- 第三章 基于项目候选集的协同过滤算法32-42
- 3.1 相关工作32
- 3.2 基于项目候选集的算法实现32-37
- 3.2.1 用户相似度的设计33-34
- 3.2.2 用户相似度的综合34-35
- 3.2.3 项目候选集的选取35-36
- 3.2.4 预测评分36
- 3.2.5 算法的详细步骤36-37
- 3.3 实验结果及分析37-41
- 3.3.1 数据集及度量标准37
- 3.3.2 实验结果37-41
- 3.4 本章小结41-42
- 第四章 基于好友关系和标签的混合协同过滤算法42-54
- 4.1 相关工作42-46
- 4.1.1 社会化标签系统描述43-45
- 4.1.2 社交网络系统描述45-46
- 4.2 基于好友关系和标签的混合算法实现46-50
- 4.2.1 用户相关性的计算46-48
- 4.2.2 用户-标签偏爱程度的计算48
- 4.2.3 用户预测评分值48-49
- 4.2.4 算法的详细步骤49-50
- 4.3 实验结果及分析50-53
- 4.3.1 数据集及度量标准50
- 4.3.2 实验结果50-53
- 4.4 本章小结53-54
- 第五章 相关算法比较54-68
- 5.1 数据的收集54-57
- 5.2 社会化标签推荐算法57-58
- 5.2.1 社会化标签系统描述57
- 5.2.2 算法流程57-58
- 5.3 基于用户评分的推荐算法58-61
- 5.3.1 用户评分描述58-59
- 5.3.2 算法流程59-61
- 5.4 基于项目属性的推荐算法61-63
- 5.4.1 项目属性描述61-62
- 5.4.2 算法流程62-63
- 5.5 实验结果及分析63-67
- 5.5.1 数据集及度量标准63-64
- 5.5.2 实验结果64-67
- 5.6 本章小结67-68
- 总结与展望68-70
- 总结68-69
- 展望69-70
- 参考文献70-76
- 攻读学位期间发表的学位论文76-78
- 致谢78
【相似文献】
中国期刊全文数据库 前10条
1 杨风召;;一种基于特征表的协同过滤算法[J];计算机工程与应用;2007年06期
2 王岚;翟正军;;基于时间加权的协同过滤算法[J];计算机应用;2007年09期
3 曾子明;张李义;;基于多属性决策和协同过滤的智能导购系统[J];武汉大学学报(工学版);2008年02期
4 张富国;;用户多兴趣下基于信任的协同过滤算法研究[J];小型微型计算机系统;2008年08期
5 侯翠琴;焦李成;张文革;;一种压缩稀疏用户评分矩阵的协同过滤算法[J];西安电子科技大学学报;2009年04期
6 廖新考;;基于用户特征和项目属性的混合协同过滤推荐[J];福建电脑;2010年07期
7 沈磊;周一民;李舟军;;基于心理学模型的协同过滤推荐方法[J];计算机工程;2010年20期
8 徐红;彭黎;郭艾寅;徐云剑;;基于用户多兴趣的协同过滤策略改进研究[J];计算机技术与发展;2011年04期
9 焦晨斌;王世卿;;基于模型填充的混合协同过滤算法[J];微计算机信息;2011年11期
10 郑婕;鲍海琴;;基于协同过滤推荐技术的个性化网络教学平台研究[J];科技风;2012年06期
中国重要会议论文全文数据库 前10条
1 沈杰峰;杜亚军;唐俊;;一种基于项目分类的协同过滤算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 周军锋;汤显;郭景峰;;一种优化的协同过滤推荐算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 董全德;;基于双信息源的协同过滤算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 张光卫;康建初;李鹤松;刘常昱;李德毅;;面向场景的协同过滤推荐算法[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
5 李建国;姚良超;汤庸;郭欢;;基于认知度的协同过滤推荐算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 王明文;陶红亮;熊小勇;;双向聚类迭代的协同过滤推荐算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 胡必云;李舟军;王君;;基于心理测量学的协同过滤相似度方法(英文)[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 林丽冰;师瑞峰;周一民;李月雷;;基于双聚类的协同过滤推荐算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 罗喜军;王韬丞;杜小勇;刘红岩;何军;;基于类别的推荐——一种解决协同推荐中冷启动问题的方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
10 黄创光;印鉴;汪静;刘玉葆;王甲海;;不确定近邻的协同过滤推荐算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
中国博士学位论文全文数据库 前10条
1 李聪;电子商务推荐系统中协同过滤瓶颈问题研究[D];合肥工业大学;2009年
2 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
3 罗恒;基于协同过滤视角的受限玻尔兹曼机研究[D];上海交通大学;2011年
4 薛福亮;电子商务协同过滤推荐质量影响因素及其改进机制研究[D];天津大学;2012年
5 高e
本文编号:460923
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/460923.html