基于淘宝商品行为的向量化内容召回方法研究
发布时间:2021-06-22 03:30
随着内容营销成为越来越重要的营销方式,淘宝App开始在其首页推荐栏下进行电商内容的推荐。电商内容推荐的初期会面临推荐系统常见的冷启动问题,而淘宝已经积累了多年的用户商品行为日志,通过利用用户在商品上的行为信息可以有效缓解内容推荐在起步阶段的冷启动问题。推荐系统最重要的两个阶段为召回和排序,召回阶段从海量的资源池中筛选出用户感兴趣的资源作为排序阶段的候选集合。召回阶段决定了排序阶段的准确率上限,且需要在毫秒级别的时间内完成。为此,本文针对淘宝在内容推荐初期的冷启动问题,在召回阶段的算法进行了以下研究工作:提出了一个将用户在商品上的行为编码为向量的用户模型,融合了用户在商品上的点击和搜索两种行为序列的文本信息,引入了用户行为序列中的时序和时间间隔信息,将用户的行为信息从商品空间映射到文本语义空间。通过淘宝全网搜索记录构建一个用户兴趣词表,基于该词表通过一个多标签兴趣分类任务对用户模型进行评估,通过抽取淘宝一亿用户半个月的行为日志作为实验数据,设计实验验证了用户模型的有效性。使用一个基于双向自注意力机制编码器的内容模型提取内容向量。采用淘宝中达人分享内容作为实验样本,并利用淘宝经验的搜索索引...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
(a)手机淘宝
第一章绪论3千以下。此阶段筛选的候选集合决定了下一阶段排序部分的准确率的上限,此外由于需要从海量的资源池中进行候选集合的筛选,这对算法的效率要求也非常高。排序部分:对于召回部分筛选出的候选集合,排序部分会对其进行更精细化的打分,根据不同的优化目标进行排序,例如点击率、浏览时长、转化率等一系列指标,获得一份推荐列表。结果展示部分:结果展示部分根据不同的产品需求用不同界面将推荐列表进行展示。图1-2推荐系统的一般流程完整的推荐系统还包括很多辅助模块,但以上流程是最主要的几个步骤,本文主要研究其中的召回部分,其承担着在海量资源中筛选出候选集合的任务,对其算法的准确性和效率要求非常高,是推荐系统中的重要组成部分。1.2.2推荐系统的召回方法将用户和资源表示为向量是推荐系统中常用的方法,特别是在召回阶段。这是由于将用户和资源用向量表示后,可以直接用K最近邻(k-NearestNeighbor,KNN)[3]方法计算与用户或者用户点击/购买过的资源最相似的k个资源进行召回,例如阿里巴巴使用了开源的KNN库Faiss(FacebookAISimilaritySearch)进行向量化的索引召回。Faiss是Facebook开源的主要用于向量相似性搜索的算法库,包含了在任何大小的矢量集合里进行搜索的算法,利用该算法在10亿的资源池进行向量化召回只需要耗时17.7微秒,完全满足召回阶段的效率要求。因此,工业级推荐系统在召回阶段常常利用向量化进行用户和资源的表示以及相似度计算。由于基于KNN方法进行向量化的相似度计算非常高效,因此推荐系统的召回阶段常常对内容和资源进行向量化表示,召回时直接取最相似的k个资源作为候选集。传统方法主要有基于协同过滤的方法[4,5,6]和基于内容的方法[7,8,9]。随着分布式表示学习[10]的出现,利用训练神
华南理工大学工程硕士学位论文10表示,再利用用户向量和资源向量计算用户相似度和资源相似度进行推荐。但这种协同过滤方法将每个用户和每个资源都看成独立的单位,导致评分矩阵非常巨大,在没有充足的数据的情况下,容易出现数据稀疏的问题。这与自然语言处理中对词进行独热编码面临的问题很相似,即同义词在独热编码中会被视为两个完全不相关的词。自然语言处理中通过用低维的向量对词进行表示,如词向量,解决独热编码的问题。在推荐领域也可以借鉴这样的思路,利用低维稠密的向量对用户和资源进行表示,提高泛化性。2.4词向量词向量是Google在2013年提出的一种词向量生成方法,通过词向量可以为文章中的每个词训练一个词向量,使得意思相近的词的词向量距离也比较近。在推荐场景中也可以借鉴这种方式,用户在一定时间范围内点击资源具有一定的相关性或者相似性。这与文章中词的共现性的原理一样,因此推荐场景也可以利用word2vec对每个资源训练一个向量。词向量具有两种训练方式,一种名为CBOW(ContinuousBagofWord),利用词的上下文对中心词词进行预测,如下图2-1;另一种名为Skip-gram,利用中心词词对词的上下文进行预测,如下图2-2。下面将对这两种训练方式进行详细介绍。图2-1CBOW训练方式如上图2-1所示,CBOW的输入为中心词的上下文1,2,…,。其中表示训练
本文编号:3242024
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
(a)手机淘宝
第一章绪论3千以下。此阶段筛选的候选集合决定了下一阶段排序部分的准确率的上限,此外由于需要从海量的资源池中进行候选集合的筛选,这对算法的效率要求也非常高。排序部分:对于召回部分筛选出的候选集合,排序部分会对其进行更精细化的打分,根据不同的优化目标进行排序,例如点击率、浏览时长、转化率等一系列指标,获得一份推荐列表。结果展示部分:结果展示部分根据不同的产品需求用不同界面将推荐列表进行展示。图1-2推荐系统的一般流程完整的推荐系统还包括很多辅助模块,但以上流程是最主要的几个步骤,本文主要研究其中的召回部分,其承担着在海量资源中筛选出候选集合的任务,对其算法的准确性和效率要求非常高,是推荐系统中的重要组成部分。1.2.2推荐系统的召回方法将用户和资源表示为向量是推荐系统中常用的方法,特别是在召回阶段。这是由于将用户和资源用向量表示后,可以直接用K最近邻(k-NearestNeighbor,KNN)[3]方法计算与用户或者用户点击/购买过的资源最相似的k个资源进行召回,例如阿里巴巴使用了开源的KNN库Faiss(FacebookAISimilaritySearch)进行向量化的索引召回。Faiss是Facebook开源的主要用于向量相似性搜索的算法库,包含了在任何大小的矢量集合里进行搜索的算法,利用该算法在10亿的资源池进行向量化召回只需要耗时17.7微秒,完全满足召回阶段的效率要求。因此,工业级推荐系统在召回阶段常常利用向量化进行用户和资源的表示以及相似度计算。由于基于KNN方法进行向量化的相似度计算非常高效,因此推荐系统的召回阶段常常对内容和资源进行向量化表示,召回时直接取最相似的k个资源作为候选集。传统方法主要有基于协同过滤的方法[4,5,6]和基于内容的方法[7,8,9]。随着分布式表示学习[10]的出现,利用训练神
华南理工大学工程硕士学位论文10表示,再利用用户向量和资源向量计算用户相似度和资源相似度进行推荐。但这种协同过滤方法将每个用户和每个资源都看成独立的单位,导致评分矩阵非常巨大,在没有充足的数据的情况下,容易出现数据稀疏的问题。这与自然语言处理中对词进行独热编码面临的问题很相似,即同义词在独热编码中会被视为两个完全不相关的词。自然语言处理中通过用低维的向量对词进行表示,如词向量,解决独热编码的问题。在推荐领域也可以借鉴这样的思路,利用低维稠密的向量对用户和资源进行表示,提高泛化性。2.4词向量词向量是Google在2013年提出的一种词向量生成方法,通过词向量可以为文章中的每个词训练一个词向量,使得意思相近的词的词向量距离也比较近。在推荐场景中也可以借鉴这种方式,用户在一定时间范围内点击资源具有一定的相关性或者相似性。这与文章中词的共现性的原理一样,因此推荐场景也可以利用word2vec对每个资源训练一个向量。词向量具有两种训练方式,一种名为CBOW(ContinuousBagofWord),利用词的上下文对中心词词进行预测,如下图2-1;另一种名为Skip-gram,利用中心词词对词的上下文进行预测,如下图2-2。下面将对这两种训练方式进行详细介绍。图2-1CBOW训练方式如上图2-1所示,CBOW的输入为中心词的上下文1,2,…,。其中表示训练
本文编号:3242024
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3242024.html