电子商务环境下基于实时信息的单类协同过滤算法研究
1 引言
1.1.1研究背景
在现代生活中,企业形式日趋多样。在众多的企业中,零售企业呈现出飞速发展之势,但同时也面临着诸多的挑战。例如评估用户对商品的感兴趣程度,以及从市场的角度准确评价商品等等,这些挑战在交揚过程中往往会转化为如何找到用户与商品间的最佳搭配。近年来,很多零售企业开始涉足电子商务领域,幵展网络零售,并且发展速度很快。据第三方电子商务研究机构中国电子商务研究中心(100EC.cn)发布的《2013年度中国网络零售市场数据监测报告》报告显示:截止到2013年底,中国网络零售市场交易规模达18851亿元,同比增长42.8%。报告还预测,2014年全国网络零售市场交易额有望达到27861亿元。截止到2013年底,中国网络零售市场交易规模占当年社会消费品零售总额的8.04%,而这一数据比例在2012年仅为6.3%,预计这一比例还将保持扩大态势,到2014年有望达到9.8%。总体来看,这些数据的背后意味着电子商务已经开始改变零售业的格局,为零售业的蓬勃发展注入了生命活力。
电子商务没有传统商业模式存在的地域限制,消费者有更大的选择空间。但随着互联网上的信息迅速膨胀出现了 “信息过载”现象,即当用户在网站浏览或购买时,因网站中充斥着各种各样的物品,可能会有多种分类供用户选择;用户产生了越来越强的信息过滤需求;其口味也越来越个性化;用户兴趣变化急需及时捕捉。用户如何从海量的资源中快速地找到喜欢的物品是目前急需要解决的问题,而且用户也需要一种能根据自己的需求自动提供感兴趣物品的技术。从零售商的角度来看,尽管发展电子商务机遇巨大,但其却必须解决一个更高层次的复杂问题:近年来,由于用户和商品数量的增加,需要零售商开发一个系统的推荐列表。该列表或是一个针对目标顾客的项目列表,或是针对目标物品的用户列表,让用户更容易发现其所感兴趣的信息,也让信息更便捷地传送给所适合的用户。在这种情况下,电子商务推荐系统应运而生。
电子商务推荐系统的实现原理是:通过对用户购物交易记录及用户对物品评分、评价、用户的历史访问日志等相关信息的处理(评价所需的基础数据),发现并挖掘用户的购物偏好,然后向其推荐相似的其他物品。电子商务推荐系统的作用主要表现在三方面:(1)可以拓展新用户,将电子商务网站的浏览者、观察者等潜在型用户,最终转化为实际的购买者;(2)能够有效保留老用户,为老用户继续提供良好的服务体验,提高其对电子商务网站用户的忠诚度,增加用户的黏性;(3)推荐多样化的相关物品,增加销售成功概率,提高电子商务网站的交叉销售能力。另外,有研究表明,成功有效的电子商务推荐系统能够提高网站的销售额8%~10%[1]。因此,通过电子商务推荐系统进行网络零售是电子商务活动中极其重要的一环。
......
当前社会,互联网技术的蓬勃发展使得信息发布和传播的速度越来越快,方式越来越便捷,但不断增长和丰富的海量数据却带来了严重的信息过载和信息冗余问题。面对庞杂的数据,人们越来越难以找到自己所需要的信息,这种情况下,当用户不明确自己的需求或者需要更符合个人喜好的物品时,仅仅依赖传统搜索已不能完全满足用户的需求,无差别的信息呈现使得用户较难寻找到自己喜欢的产品信息,互动性较差,用户体验也较差。解决上述问题的一条非常有效的途径是采用推荐系统。“推荐”在《现代汉语词典》中的释义为:介绍合适的人或事物希望被任用或接受。推荐可以分为大众化推荐和个性化推荐。大众化推荐指的是根据大众行为,对每个用户都给出同样的推荐。大众化推荐所提供的可以是静态的由系统管理员人工设定的物品或其他信息,也可以是基于系统所有用户的反馈统计所计算出的当前阶段比较流行的物品或其他信息。不同于大众化推荐,个性化推荐是根据用户的兴趣特征及购买行为,向用户推荐其感兴趣的物品或其他信息。个性化推荐针对不同的用户,根据其口味和偏好提供更加精确的推荐。这种推荐要求系统对需推荐的内容和用户的特征要了解,或者基于社会化网络,通过寻找与当前用户相同偏好的用户以实现推荐。在一般情况下,大多数人们讨论的推荐均属于个性化推荐。个性化推荐是更加智能的信息发现过程。而个性化推荐系统中应用范围最广、推荐效果最明显的就是电子商务推荐系统。
1.2.1电子商务推荐系统
电子商务推荐系统一方面可以起到购物助手的作用,另一方面它还是建立在数据挖掘基础上的智能服务平台,可以帮助商家实现利益最大化。当前的电子商务推荐系统中,一般都是在不同的场景下使用不同的推荐策略,从而达到最好的推荐效果,很少有仅仅采用一个推荐策略的推荐系统。例如亚马逊(Amazon)的推荐系统,采用的就是将基于用户本身历史购买记录数据的推荐,以及将大众喜好的当下较为流行的物品在不同区域推荐给用户,这样可以使得用户在全方位的推荐中找到自己真正感兴趣的物品。简而言之,对电子商务零售网站而言,电子商务推荐系统是一种提升其整体营销性能的个性化推荐工具。其原理为:从微观角度看,电子商务推荐系统通过采用个性化推荐技术,调节网站整体的流量结构,增加物品的曝光数以及用户对物品页的访问量(glance view),增加用户的平均访问步长,降低其跳出率。更进一步,该系统会影响物品的转化率、动销数以及销售额,这样就可以从根本上提升电子商务零售网站的整体营销性能。从宏观角度看,电子商务推荐系统通过建立以用户为中心的个性化的营销策略,帮助使用者提升用户的忠诚度,增加其粘性,在最恰当的时机为用户提供最急需的信息,让用户的购物体验更加及时舒适。
......
2单类协同过滤的相关理论及方法
2.1.1协同过滤算法的原理
常见的获取用户偏好信息的来源主要分为两类:显式评分和隐式评分。每一个评分均表示为一个用户一项目对。显式评分是用户明确表明偏好的信息,一般通过用户对项目的直接评分来实现。隐式评分则认为用户的行为会反映用户的偏好特征,因此主要选择的数据是用户的行为,如点击、收藏等。
推荐结果的表现形式一般可分为两种:有序项目列表及预测评分。有序项目列表常采用的是Top-N推荐,为用户提供N个最可能喜欢的项目,这与“热门推荐”是有区别的,“热门推荐”是大众化的推荐,为每个用户推荐内容是一样的,而Top-N推荐则是针对用户的个性化的推荐,为不同的用户推荐不同的物品或项目。预测评分则是推荐系统针对给定的项目提供一个目标用户可能的预测评分值。例如,浏览电影时,系统通常会依据用户特征,为一系列电影给予评分值,以供用户参考。
基于内存的协同过滤(Memory-based Collaborative Filtering),有时也称之为基于邻居的协同过滤(Neighbor-based Collaborative Filtering)(SCHAFER J B,1999,BEN J, 2001) [38-39]。该类算法通过采用用户相似性统计的方法,进而对具有相似购物偏好的邻居用户进行判断,获得当前目标用户的相似邻居,然后再基于其邻居的偏好进行推荐。
基于模型的协同过滤(Model-based Collaborative Filtering),该类算法在对用户偏好预测之前,首先会根据用户历史访问记录等数据建立一个模型,然后依据该模型对用户的偏好进行预测。在这类算法中,典型使用的技术包括:神经网络技术、潜在语义检索(latent semantic indexing) (Huang et al, 2004) _以及贝叶斯网络技术(Bayesi an networks )等。从另一角度,根据协同过滤的相关特征,协同过滤算法可分为基于用户的协同过滤算法、基于项目的协同过滤算法。
基于项目的协同过滤算法(Item-based Collaborative Filtering)由 Sarwar[4i]教授于2001年提出,该算法先分别计算用户已评价产品及未评价产品的相似性,将其作为权重,,然后通过加权计算已评价产品的评价值,得到未评价产品的评价值。在论文中Sarwar教授还指出了基于项目的协同过滤推荐算法所具有的优势,并且解决了协同过滤在之前研究中所遇到的问题。基于项目的协同过滤算法是通过目标项目与其他项目集合之间的相似性计算来产生推荐的,但它会存在如用户对项目的评分过少容易忽略项目自身属性的问题,这样也会造成预测的精度不准确[42]。
总之,基于用户和项目的协同过滤算法各有优劣。基于用户的算法可以实现跨类型的推荐,但受数据稀疏性影响较大;而基于项目的算法虽然受数据稀疏性影响较小,却无法进行跨类型的推荐。Premm[43]教授(2002)通过对各种推荐算法重新梳理和审视,认为基于项目的协同过滤推荐算法其准确度与所采用的实验规模数据相关,在大多数情况下还是运用基于用户的协同过滤推荐会好一些。
......
协同过滤算法在国内外得到了广泛研究,按处理的数据的不同主要可分为两类:一类是显示数据,如:评分、评价等;另一类则是隐式数据。较显示数据而言,隐式数据在现实世界中的存在会更普遍一些,例如用户是否点击过某个网页,是否购买过某种物品。这类信息不需要获取用户对物品明确的喜好信息,因此更容易获得。但这类数据中仅可以明确区分正例,负例是不确定的,因此,这类问题可以被称为单类协同过滤(One Class Collaborative Filtering, OCCF) 问题。单类协同过滤所研究的数据集的用户和项目之间缺乏或者完全没有评分数据,而只有布尔化的点击数据(如对于新闻网站,用户只有点击与否的二值数据;对视频网站,用户只有观看与否的二值数据,诸如此类的,都缺乏数值化的评分数据)。单类协同过滤推荐就是通过分析这些隐式信息来针对特定用户的偏好对推荐对象集按该用户的喜好程度排序。尽管这类数据获取容易,但其极度稀疏,无法轻易解释,以用户点击网页数据为例,这些数据中用户点击过的网页构成的数据可以解释为正例,其余绝大部分数据是负例和漏掉的正例的混合,如何解决这些数据的稀疏性,如何对这些数据进行有效处理,是当前单类协同过滤问题研究的难点所在。
单类协同过滤推荐问题是一个研究较少的问题,基于单类协同过滤的方法的有效性依赖于对非标记的或缺失的数据集的处理和考虑,即,它的基本思想是构造负例(消极数据集)。近年来,一些学者幵始关注消极数据集,基于频数信息,如顾客数量,商品数量,商品的受欢迎程度等,应用权重分配的矩阵因子分解技术对单类协同过滤问题进行相应的研究。相对于协同过滤推荐问题,单类协同过滤推荐问题的研究较少。单类协同过滤问题一方面由于积极数据集(存在数据稀疏性问题)很少,而另一方面,其他的两类数据集,消极和缺失数据集,又很容易混淆,因此研究较为困难。同时,也可以说明,在单类协同过滤推荐方面还有很大的研究空间,有待进一步的探索和深入。在综合已有学者对单类协同过滤推荐问题的研究基础上,可将常用的解决方法概括为以下几种:
(1)在数据集中标注评分值的样本,或是引入其他数据来源的评分,从而将其转化为传统的协同过滤问题。但这种方法通常是需要人工实现的,并且由于合理的新数据来源较为难找
(2)把所有的丢失数据,即用户没有正面操作(如点击、观看)的例子当作负例(AMAN, All Missing Are Negative),然后通过协同过滤算法进行计算。这种方法较容易实现。在AMAN的前提下,前文所述的大多数传统的协同过滤算法都能够直接应用。例如:在AMAN基础上,运用奇异值分解(SVD)技术可实现基于矩阵分解的协同过滤算法,还可实现基于用户相似度和项目相似度的协同过滤方法。
......
3.1问题分析...........................26
3.2单类协同过滤模型及公式.........28
3.3改进算法的依据..................30
4基于实时信息的单类协同过滤算法的仿真研究.........36
4.1数据集和评估标准..................36
4.1.1数据集选择..................36
4.1.2推荐质量的评估标准.........37
4.2运行方案设计..................37
5结论与展望..................45
5.1论文主要研究内容总结.........45
5.2论文的展望..................46
4基于实时信息的单类协同过滤算法的仿真研究
4.1.1数据集选择
为分析和验证本文提出的基于实时信息的单类协同过滤推荐算法的推荐效果,本章选取了一个被广泛使用和认可的实验数据集,设计合理可行的实验过程和评估标准,通过简单编程实现上述的推荐算法,并对其准确性——未评分项目预测结果的准确性进行了比较,以测试本文提出的基于实时信息的单类协同过滤推荐算法的合理性和有效性。本文实验选用的数据集是MovieLens数据集,该数据集由Minnesota大学GroupLens Research项目组所收集。MovieLens站点建立于1997年,是一个基于Web的研究型推荐系统,该系统一方面接收用户对电影的评分,另一方面可为其提供电影推荐列表。目前,该Web站点已拥有超过70000名的用户,超过5000部带有评分的电影。电影评分是从1到5的整数,数值越高,表示用户对该电影的喜爱程度越高,未被评分的电影占到总体数据的大多数,这也正体现了前文所述的数据稀疏性问题。
针对所有的评价,本文截取GroupLens研究组提供的MovieLens数据集的一部分,该部分数据的收集时间为1997年的9月到1998年的4月,共包含943个用户和1682部电影,其中,每个用户至少对20部电影有评分,共计100,000条评价记录。这个数据集非常稀疏,其稀疏等级为:1-100,000/(943*1682)=6.305%,即仅6.305%的项有评分。为把该数据集转换为隐式数据集,所有有评分的数据评分值均设为1,其他所有没有评分的数据值设为0,这样数据集就符合了单类协同过滤的基本要求。另外,为方便后文具体的试验,选取了该部分数据的80%作为训练集,剩余20%的数据为测试集。在训练时采用训练集中的数据,得到推荐后用测试集中的数据进行测试,得到相关的数值,进而分析判断推荐算法的优劣。
在该数据集的数据库中主要有6张数据表:Users (用户)、movies (电影)、ratings (评分)、age (年龄)、genres (性别)和occupation (职业)。其中,所推荐的电影主要包括以下种类:action (动作片)、adventure (冒险片)、animation (动画片)、children's (儿童片)、comedy (喜剧片)、crime (犯罪片)、documentary (纪录片)、drama (剧情片)、fantasy (幻想片)、Film-Noir (黑色片)、Horror (恐怖片)、Musial (音乐剧)、mystery (神秘剧)、Romance (爱情片)、Sci-Fi (科幻片)、Thriller (惊悚片)、War (战争片)和Western (西部片)。
......
5结论与展望
在电子商务飞速发展的时代,一个拥有优秀电子商务推荐系统的网站不仅能够获得使用者——用户的喜爱,还能够帮助企业或商家发掘用户信息中的有用信息,从而改进其营销推广策略。电子商务推荐系统中除了大众化的推荐技术职务,更重要的是个性化的推荐方式,好的推荐技术可以让电子商务网站实现好的个性化推荐效果,而协同过滤就是众多技术中的佼佼者。在协同过滤领域有一类较为新颖的研究课题,即单类协同过滤,其对负例的处理方式在很大程度上能够改善推荐效果。本文就单类协同过滤问题进行相应的研究,由于单类协同过滤本身存在的问题较多,本文就其技术重点稀疏性问题及实时性问题,提出了一个综合性的解决方法。所做工作总结如下:
(1)对电子商务推荐系统进行了简要介绍,对其常用的推荐技术和算法进行了归类和比较。在此基础上,就其最重要的推荐技术——协同过滤进研究,分析了其基本原理和分类,明确在此研究领域所存在的不足:未考虑不能明确表示用户偏好的数据,未能将实时性因素中的物品生命周期因素考虑在内。
(2)针对协同过滤推荐存在的问题,提出了本文的研究对象——单类协同过滤推荐。单类协同过滤推荐就是利用不能明确表示用户偏好的数据进行的推荐算法。本文对其原理及技术重点进行了概述,在此基础上,就其技术重点数据稀疏性问题和实时性问题进行了分析。
(3)通过采用不同的加权方式,引入实时信息,如用户的历史访问(评估阶段)和物品的投入市场信息(物品生命周期)等,就此信息分别构造权重函数,建立了基于实时信息的单类协同过滤推荐模型。
(4)对设计的基于实时信息的单类协同过滤模型进行了仿真研究:首先通过对数据集有评分值的项设为1,没有评分值的项设为0,以此满足单类协同过滤研究对象的特征。然后运用奇异值分解矩阵的方法对数据集进行处理,在一定程度上对庞大的矩阵进行降维,接着将该模型中的实时的以用户为中心的加权算法及实时的以物品为中心的加权算法与已存在的基础方法进行仿真对比。通过测试在不同的情况下:数据、变量确定;矩阵秩数目改变;不同交易频率情况;迭代次数变化;物品生命周期的改变(在一定范围内)等的推荐效果,证明本文中的基于实时信息的单类协同过滤算法要优于其他基础方法。
......
参考文献(略)
本文编号:42943
本文链接:https://www.wllwen.com/wenshubaike/caipu/42943.html