基于深度学习的多源信息融合推荐算法研究

发布时间：2020-03-26 06:57

【摘要】：随着大数据和云计算技术的发展,各种互联网应用的出现导致网络数据信息呈指数级增长。大规模数据信息蕴含丰富的价值,但从中找到有价值的信息变得越来越困难,这将产生“信息过载”等问题。推荐系统可以从大规模的数据中挖掘出用户感兴趣的信息,并根据用户偏好推荐给用户,已经成为克服“信息过载”问题的有效策略。目前,推荐系统已广泛应用于电子商务和广告计算领域,并带来巨大的商业价值。但是,推荐系统仍然面临众多挑战,主要体现在以下几方面:(1)数据稀疏问题:在项目数量较为庞大的业务系统中,由于用户通常只访问少量项目,这将导致蕴含用户偏好的历史记录相对稀疏。因此,如何基于海量数据信息解决推荐系统中的数据稀疏问题是一个值得探讨的课题。(2)冷启动问题:由于缺少充足的信息深入提取用户偏好,当新用户加入推荐系统时,推荐系统很难为用户提供准确推荐。因此,如何给新加入系统的用户提供个性化推荐是一个亟需解决的问题。(3)可解释性问题:通常情况下,用户期望推荐系统对预测结果给出合理的解释,而不是仅仅给用户展示“黑盒”推荐。因此,如何提高推荐的可解释性也是推荐系统面临的重要挑战。(4)推荐的多样性问题:由于用户的兴趣偏好较为广泛,而推荐系统经常根据用户的历史活动记录推荐同类型的项目给用户,同质的推荐不能满足用户的个性化需求。因此,研究推荐的多样性问题可以提高用户对推荐系统的满意度。针对上述挑战,国内外研究人员提出了大量的解决方案。然而,仅仅利用用户的评分信息不能从本质上解决推荐系统中存在的问题。随着互联网中越来越多的多源异构数据(如文本、位置、社交关系、图像等)能够被获取,融合多源数据信息已经成为推荐系统重要的研究方向。如何在推荐系统中融合多源信息,捕捉数据内部之间复杂的关系,成为推荐系统领域重要的研究问题。由于深度学习技术能够从丰富的可访问数据源(如上下文、文本和视觉信息)中有效地捕捉非线性和有意义的用户-项目关系,并使更复杂的抽象编码成为更高层的数据表示,基于深度学习研究多源数据融合推荐算法具有重要的理论意义和应用价值。本文以国家自然科学基金为依托,针对上述现有研究工作存在的问题,对基于深度学习融合多源信息的推荐算法进行深入研究,其中包括利用卷积神经网络融合多源数据信息捕捉非线性用户-项目关系,解决推荐中存在的数据稀疏和冷启动问题;引入深度学习的注意力机制提取用户评论文本信息,深入了解用户偏好进行推荐,提高推荐的可解释性;挖掘项目之间强关联规则,提高推荐的多样性。本文的主要工作如下:1.提出了一种基于卷积矩阵分解的兴趣点推荐算法由于现实生活中用户在位置社交网络中只对少数兴趣点进行签到,使得用户签到历史数据极其稀疏。评论文本信息以及上下文信息可以解决推荐系统的数据稀疏问题,更加深入地了解用户偏好。目前研究人员探讨基于评论文本信息的位置兴趣点推荐,但是现有的方法是基于词袋或文档主题模型处理评论文本,只能对用户偏好进行浅层理解。为了捕捉用户深层次偏好,本文利用卷积神经网络处理评论文本信息,对位置兴趣点的潜在因子建模,在矩阵分解模型的基础上,融合用户的社交关系以及位置兴趣点地理信息因子,将多源信息融入同一概率因子模型中进行求解,从而对用户偏好进行更为细致的建模。实验结果表明,与没有使用卷积神经网络处理评论文本信息的算法相比,该算法在准确率和评分预测方面取得了较好的效果。2.提出了一种基于卷积神经网络的内容感知兴趣点推荐算法上述模型只是利用评论文本信息对兴趣点潜在因子建模,用户的潜在因子还是利用传统的概率矩阵分解求得,为此,本文在上文的基础之上,利用卷积神经网络处理评论文本信息,对位置兴趣点和用户的潜在因子建模,同时融合用户的地理位置信息以及求得的用户评论情感类别信息构造目标函数,该目标函数由矩阵分解以及概率目标函数最大化组成,对目标函数进行求解。实验结果表明,利用卷积神经网络处理评论文本能够有效地对用户和位置兴趣点进行建模,并且与其他基准算法相比,可以得到更优的推荐结果。3.提出了一种基于分层注意力机制的推荐算法目前许多研究人员提出利用深度神经网络处理用户和产品评论文本信息生成评论文本表示,进而提高推荐的性能。然而,评论中一些单词或句子可以强烈的表达出用户偏好,而另一些则倾向于表示产品的特性,将用户和产品评论信息映射成同一特征表示是不合理的。因此,本文应用双向门控循环单元分别生成用户和产品特征表示。为了使得用户和产品的特征表示反映在语义层而不是词层,本文设计了单词级和句子级分层表示结构。由于注意力机制可以从大量信息中有选择地筛选出重要信息并聚焦到重要信息上,本文在每层表示结构中引入注意力机制,忽略大多数不重要的信息,提高推荐的性能。通过数据分析和实验结果表明,引入分层的注意力机制能够有效地对评论文本信息建模,提高推荐的可解释性,并且和其他基准算法相比,可以更好地捕捉用户兴趣偏好。4.提出了一种基于高效用关联模式挖掘的推荐算法现实生活中,大多数用户只对几个单一类别的项目感兴趣,为用户推荐不同类别但具有强关联模式的项目,往往可以提高推荐的多样性,但是如何获取项目之间的关联关系是推荐任务中首先需要解决的一个问题。因此,本文深度挖掘项目之间的关联关系,融合事务数据中的项目频度以及价值度等多源信息,对高效用关联模式挖掘算法UP-Growth进行改进。采用聚类的方法把数据库中相似的事务划分为多个数据子集,将数据子集分配到分布式计算平台的各个节点中构造效用模式树,各个节点中相同项的条件模式基分配到同一个节点中挖掘高效用关联模式,为后续基于关联模式的推荐提供支持。数据分析和实验结果表明,该算法在效率和推荐的多样性方面优于对比算法。本文从推荐的数据稀疏性、冷启动、可解释性以及多样性四个方面研究了三种推荐算法。第一种算法涉及本文第二、三章内容,由于评分数据过于稀疏,并且在没有大量评分数据的情况下推荐系统容易产生冷启动问题,融合评论文本、地理位置、用户社交关系信息可以解决数据稀疏以及冷启动问题,提高推荐的性能。第二种算法涉及本文第四章内容,在解决数据稀疏以及冷启动问题的基础上,研究推荐的可解释性问题,基于深度神经网络分析大量的评论文本信息,提取评论内容特征,引入注意力机制查找评论文本中重要的单词和句子作为解释,增加推荐的可解释性。第三种算法涉及本文第五章内容,讨论推荐的多样性问题,通过挖掘不同类别项目之间的强关联规则,建立项目的关联规则库,为用户提供多样化的推荐服务。综上所述,本文针对推荐系统中存在的数据稀疏、冷启动、可解释性以及多样性问题进行探讨。为了解决上述问题,利用深度学习技术对多源数据进行处理并将其融合,基于此提出了多个推荐算法,提升推荐的性能,并且通过理论及实验证明了本文研究工作的有效性。
【学位授予单位】：山东师范大学
【学位级别】：博士
【学位授予年份】：2019
【分类号】：TP391.3;TP18

【相似文献】