当前位置:主页 > 科技论文 > 搜索引擎论文 >

协同过滤中数据稀疏问题与推荐实时性的研究

发布时间:2017-05-17 04:12

  本文关键词:协同过滤中数据稀疏问题与推荐实时性的研究,由笔耕文化传播整理发布。


【摘要】:数据爆炸的现今使得推荐系统技术变得越来越热门,越来越重要,几乎所有的电子商务网站以及部分门户网站,甚至是搜索引擎都有推荐系统相关技术的身影。总结其中的原因,一是在唾手可得的海量信息里,人们所期望获得的却是其中极小的一部分;二是人们期望获得的信息里有一些潜在的偏好,利用这些偏好可以做更多的事情。推荐系统的发展非常迅速,它分为协同过滤,基于知识的推荐,混合推荐等等,而各种类别的推荐算法下又有很多成熟的技术。协同过滤一直是这其中的研究最多的技术,同时也是在电子商务有着广泛应用的技术之一。典型的协同过滤,通过维护一个评分者—物品评分矩阵,计算相似度确定近邻来产生推荐。不幸的是,这种算法的性能随着用户和商品的增加会产生很多问题:高维度,高稀疏度。此二者对于该技术在电子商务网站的应用产生巨大挑战。本文着眼于此,提出或改进了若干方法,以解决数据稀疏问题和推荐实时性。对于数据稀疏问题,主要对外部信息做适当提取,计算其Jaccard相似度产生预测值,并将预测值有节制地填充至测试集,以此来提高传统推荐技术的准确性。具体的,评分外的信息,如:用户的年龄、职业,物品的类别等,通过Jaccard相似度做初步调整,再与经典协同过滤得到的最近邻相似性进行加权,通过多组具体的实验,确定了较为理想的权重系数。在这样权重下,我们得到的结果相对基准实验有了一些提高。对于实时性的解决,我们引入聚类中的簇代表点技术(CURE,Clustering Using Representatives),主要是将搜寻所有用户空间问题转变为搜索簇代表点的集合中的近邻问题,从而减少了近邻搜寻空间的规模,以提高实时性。解决这一问题的关键,亦或是本文的核心工作,在于簇代表点的计算上。通过对前人所提算法的研究,我们进行了适当的修改,通过平行实验对比,我们修改的算法得到的最终结果相对较好。
【关键词】:CURE 推荐系统 Movielens 协同过滤
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
  • 中文摘要3-4
  • Abstract4-9
  • 第一章 引言9-14
  • 1.1 研究背景及意义9-10
  • 1.2 研究现状10-12
  • 1.3 本文的研究内容12-13
  • 1.4 本文的组织结构13-14
  • 第二章 相关理论及技术综述14-22
  • 2.1 推荐系统14-18
  • 2.1.1 推荐算法14-15
  • 2.1.2 相似性度量15-16
  • 2.1.3 推荐评估16-17
  • 2.1.4 存在的问题17-18
  • 2.2 聚类18-21
  • 2.2.1 聚类分析的类型18-19
  • 2.2.2 K-均值聚类19-20
  • 2.2.3 DBSCAN算法20-21
  • 2.3 Mahout21-22
  • 第三章 协同过滤数据稀疏问题的研究22-31
  • 3.1 数据稀疏问题及解决方法的选择22-23
  • 3.2 基于相似度加权融合的数据填充(DPFS)23-25
  • 3.3 实验过程及结果25-30
  • 3.3.1 数据集25-26
  • 3.3.2 概念分层26-27
  • 3.3.3 相似度加权求和27-28
  • 3.3.4 实验结果分析28-30
  • 3.4 本章小结30-31
  • 第四章 协同过滤推荐实时性问题的研究31-57
  • 4.1 推荐实时性问题及解决方法的选择31-33
  • 4.2 基于聚类簇代表点的协同过滤(CFRC)33-42
  • 4.2.1 算法的详述34-41
  • 4.2.2 算法的目标及评估41-42
  • 4.3 实验过程42-48
  • 4.3.1 数据的抽样42-44
  • 4.3.2 产生簇、确定簇代表点44-47
  • 4.3.3 产生推荐47
  • 4.3.4 计算MAE47-48
  • 4.3.5 实验小结48
  • 4.4 实验结果与讨论48-53
  • 4.4.1 簇的个数49-50
  • 4.4.2 阈值 β50-51
  • 4.4.3 近邻个数51-52
  • 4.4.4 簇代表点52-53
  • 4.4.5 小结53
  • 4.5 基于模糊聚类簇代表点的协同过滤(CFRFC)53-55
  • 4.5.1 模糊K均值聚类54-55
  • 4.5.2 实验结果及分析55
  • 4.6 本章小结55-57
  • 第五章 总结与展望57-60
  • 5.1 总结57-58
  • 5.2 展望58-60
  • 参考文献60-64
  • 在学期间的研究成果64-65
  • 致谢65

【相似文献】

中国期刊全文数据库 前10条

1 杨风召;;一种基于特征表的协同过滤算法[J];计算机工程与应用;2007年06期

2 王岚;翟正军;;基于时间加权的协同过滤算法[J];计算机应用;2007年09期

3 曾子明;张李义;;基于多属性决策和协同过滤的智能导购系统[J];武汉大学学报(工学版);2008年02期

4 张富国;;用户多兴趣下基于信任的协同过滤算法研究[J];小型微型计算机系统;2008年08期

5 侯翠琴;焦李成;张文革;;一种压缩稀疏用户评分矩阵的协同过滤算法[J];西安电子科技大学学报;2009年04期

6 廖新考;;基于用户特征和项目属性的混合协同过滤推荐[J];福建电脑;2010年07期

7 沈磊;周一民;李舟军;;基于心理学模型的协同过滤推荐方法[J];计算机工程;2010年20期

8 徐红;彭黎;郭艾寅;徐云剑;;基于用户多兴趣的协同过滤策略改进研究[J];计算机技术与发展;2011年04期

9 焦晨斌;王世卿;;基于模型填充的混合协同过滤算法[J];微计算机信息;2011年11期

10 郑婕;鲍海琴;;基于协同过滤推荐技术的个性化网络教学平台研究[J];科技风;2012年06期

中国重要会议论文全文数据库 前10条

1 沈杰峰;杜亚军;唐俊;;一种基于项目分类的协同过滤算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

2 周军锋;汤显;郭景峰;;一种优化的协同过滤推荐算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

3 董全德;;基于双信息源的协同过滤算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

4 张光卫;康建初;李鹤松;刘常昱;李德毅;;面向场景的协同过滤推荐算法[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年

5 李建国;姚良超;汤庸;郭欢;;基于认知度的协同过滤推荐算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

6 王明文;陶红亮;熊小勇;;双向聚类迭代的协同过滤推荐算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

7 胡必云;李舟军;王君;;基于心理测量学的协同过滤相似度方法(英文)[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

8 林丽冰;师瑞峰;周一民;李月雷;;基于双聚类的协同过滤推荐算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年

9 罗喜军;王韬丞;杜小勇;刘红岩;何军;;基于类别的推荐——一种解决协同推荐中冷启动问题的方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

10 黄创光;印鉴;汪静;刘玉葆;王甲海;;不确定近邻的协同过滤推荐算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年

中国博士学位论文全文数据库 前10条

1 李聪;电子商务推荐系统中协同过滤瓶颈问题研究[D];合肥工业大学;2009年

2 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年

3 罗恒;基于协同过滤视角的受限玻尔兹曼机研究[D];上海交通大学;2011年

4 薛福亮;电子商务协同过滤推荐质量影响因素及其改进机制研究[D];天津大学;2012年

5 高e,

本文编号:372526


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/372526.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8c11f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com