基于常数复杂度距离函数的推荐算法研究
本文关键词:基于常数复杂度距离函数的推荐算法研究
【摘要】:推荐系统是指通过分析用户的历史行为,主动给用户推荐他们可能感兴趣的信息。它能够大大缩短用户筛选信息的时间,从而被广泛应用于电子商务,电影视频网络,社交网络等领域。推荐系统的研究方法有很多,其中应用最广泛的是协同过滤推荐算法。该算法的核心思想是寻找与目标兴趣爱好相似的对象作为样本的邻居,然后通过分析其邻居的行为来预测目标的行为。现有大量距离度量函数可以用来确定目标的邻居,例如余弦相似度,Pearson相关系数,欧几里得距离等。但这些距离度量函数的计算过程均比较复杂,当数据规模较大时,距离的计算会非常耗时。本文提出了一个以平均距离为核心的协同过滤推荐算法MBR(M-distance based recommend)。该算法首先定义了一个新的距离函数M-distance,该函数的复杂度仅有常数级。M-distance将对象与样本之间的平均评分差作为二者之间的距离,当已知对象与样本的平均评分后,计算二者距离的时间复杂度仅为O(1)。其次提出了以半径5来寻找邻居的方法。在计算出对象间的距离后,kNN算法将距离样本最近的k个对象作为样本的邻居,但是这样预先设定好邻居数量的方法不够灵活。而以半径来寻找邻居是通过样本的平均评分和δ先确定出样本的邻居域,当对象与样本的距离在这个邻居域范围内时,我们就将该对象作为待选邻居。通过这样的方法来选择邻居,邻居数量的多少完全取决于对象与样本之间的相似程度,相似度越高,选择出来的邻居就越多,预测也就越准确。然后定义了评分预测方法。当选择出样本的所有邻居后,就可以根据用户对邻居的行为来预测用户对样本的行为。当有邻居时,将邻居的平均评分作为样本的最终预测值,而没有邻居时将用户对样本的平均评分值作为最终的预测值。最后在MBR推荐算法的基础上继续定义了一个推荐阈值(threshold)。当MBR算法计算出的预测值大于推荐阈值时,就将样本推荐给用户,反之不推荐。threshold主要由误推荐率和误推荐代价两者共同决定。本文选取了四个常用的公开数据集:MovieLens,DouBan,EachMovie,Netflix来进行试验。主要比较了 MBR推荐算法与kNN,Slope One算法在运行效率和预测精确上的优劣。通过大量的实验可知MBR推荐算法在保证了精确度的前提下大大提高了推荐效率,特别是在大型数据集上表现更为突出。而最优的门限值一般在3.4与3.5之间产生。
【学位授予单位】:西南石油大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【相似文献】
中国期刊全文数据库 前10条
1 李颖基,彭宏,郑启伦,曾炜;自动分层推荐算法[J];计算机应用;2002年11期
2 徐义峰;徐云青;刘晓平;;一种基于时间序列性的推荐算法[J];计算机系统应用;2006年10期
3 余小鹏;;一种基于多层关联规则的推荐算法研究[J];计算机应用;2007年06期
4 张海玉;刘志都;杨彩;贾松浩;;基于页面聚类的推荐算法的改进[J];计算机应用与软件;2008年09期
5 张立燕;;一种基于用户事务模式的推荐算法[J];福建电脑;2009年03期
6 王晗;夏自谦;;基于蚁群算法和浏览路径的推荐算法研究[J];中国科技信息;2009年07期
7 周珊丹;周兴社;王海鹏;倪红波;张桂英;苗强;;智能博物馆环境下的个性化推荐算法[J];计算机工程与应用;2010年19期
8 王文;;个性化推荐算法研究[J];电脑知识与技术;2010年16期
9 张恺;秦亮曦;宁朝波;李文阁;;改进评价估计的混合推荐算法研究[J];微计算机信息;2010年36期
10 夏秀峰;代沁;丛丽晖;;用户显意识下的多重态度个性化推荐算法[J];计算机工程与应用;2011年16期
中国重要会议论文全文数据库 前10条
1 王韬丞;罗喜军;杜小勇;;基于层次的推荐:一种新的个性化推荐算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 唐灿;;基于模糊用户心理模式的个性化推荐算法[A];2008年计算机应用技术交流会论文集[C];2008年
3 秦国;杜小勇;;基于用户层次信息的协同推荐算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 周玉妮;郑会颂;;基于浏览路径选择的蚁群推荐算法:用于移动商务个性化推荐系统[A];社会经济发展转型与系统工程——中国系统工程学会第17届学术年会论文集[C];2012年
5 苏日启;胡皓;汪秉宏;;基于网络的含时推荐算法[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
6 梁莘q,
本文编号:1286040
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1286040.html