基于多维信息环境数据的推荐系统算法模型的研究与实现
发布时间:2019-12-04 02:52
【摘要】:移动互联网近年来的迅速发展促使推荐系统技术在学术界和工业界都受到空前的关注。推荐算法的研究不再仅仅停留在推荐精度、指标权衡、冷启动等经典推荐问题,移动互联网环境的高度稀疏数据、大规模运算性能等障碍,多维信息的综合利用,以及推荐模型的可控性和适用性同样成为研究焦点。本课题首先针对目前主流的协同过滤技术(CF)进行研究,设计了双重去中心化相关性距离,一种基于相似度距离的关系矩阵计算方法。该算法在数据敏感度和模型适应性上优于传统的调整后余弦距离和皮尔森距离。继而,针对协同过滤技术迁移至移动互联网时面临的数据稀疏和运算性能低下两种问题,提出了解决方案。该解决方案包括1)利用数据分布规律设计基于影响力的计算优化方法,和2)基于CF-I和CF-U算法中较为成熟的最近邻思想对本不适用的Slope-One模型设计近似k最近邻的Slope-One改进算法。本课题发现电影评分平台MovieLens和移动应用市场AppDL的用户行为存在一致规律:用户往往在一段时期内具有较为稳定的兴趣偏好,经常在数周之内保持较为固定的关注焦点。基于该规律以及上述协同过滤模型的改进算法,通过引入物品分类数据,设计了基于多维信息环境下的多分类列表调整算法的“嵌套型”推荐模型。该模型具有以下几点优势:1)可以作用于绝大多数推荐算法并提高推荐性能;2)提供可控的列表调整过程并产生倾向于不同指标提升的多种推荐模式;3)提出通过历史评估数据计算统一评估标准的需求量化方法;4)自动学习适合特定推荐目标的最优化推荐模式;5)支持多分类和多标签组合分类的数据场景并提供更为精确的模糊分类结果;6)模型的附加开销低于0(uilog2 i)。
【图文】:
随后以不同的时间点做切割,观察在两个月之中随着时间的推移各个组内的逡逑用户累计关注的游戏分类数(动作类、飞行类、策略类等总共17种分类)的变逡逑化情况。图2-2邋(a)?(e)展示了邋5组用户分别在不同时间切割点时,有多少用逡逑户关注了多少游戏分类(至少1个至多17个)的统计数值。横坐标为,随着时逡逑间的推移所发生的交互记录数占两个月记录总量的比值,从50%以5%为增量增逡逑至75%,纵坐标为用户数量。例如在图2-2邋(a)中横坐标为50°/。时的蓝色柱形,,逡逑表示在A组用户中当交互记录累计到总量(两个月)的50%时,仍只保持关注1逡逑个游戏分类的用户数只有不到20人。逡逑可以很明显的发现,百分之百的用户在这两个月内的关注焦点不超过8个分逡逑类,对于绝大部分用户当数据量不超过60%时,用户的关注焦点都集中在5个分逡逑类以内,而当数据量不超过50%时则可限制在4个分类之内。更有趣的是,当用逡逑户的交互频率与交互次数上升时
Pearson邋Correlation邋Similarity邋=逦.逦==:逦(2.9)逡逑Jlluel](Ru,x-Rx)邋JZuev(Ru.y ̄Ry)逡逑其中Ru,;c指代用户》对物品x的评分情况,5。表示用户w对所有产生过打分逡逑行为的物品的评分均值,而豆;^表示物品X所接受到的所有评分的均值水平。其实逡逑不难理解,假设现在存在一个用户A对物品1和物品2的评分分别为逡逑1分和2分,类似的另一位用户B对物品1和物品2的评分RuRw/A别为2逡逑分和1分,如图2-3所示。那么图中zee的余弦值便是一般的余弦相似距离,所以逡逑不难看出只有当两个评分向量之间的夹角越小时他们之间的余弦相似距离才会逡逑越大,反之亦然。而余弦相似距离的值域是[0,1],接近1时表示有较高的相似程逡逑度和接近0时表示评分向量的相似程度极低。值得一提的是,图中的绿色虚线部逡逑分便是这两个评分向量的欧氏距离(Euclidean邋Distance)。然而,可以很直观的逡逑看出只有当两个评分向量完全相等时才能取得最大的欧氏相似度,这显然是不合逡逑理的。同时,欧氏距离对于打分趋势是完全不敏感的,这是余弦相似距离相对于逡逑欧氏距离的优势所在。这也导致欧氏相似距离的适用场景相当局限,而目前很少逡逑在实际推荐模型得到应用。逡逑
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
本文编号:2569427
【图文】:
随后以不同的时间点做切割,观察在两个月之中随着时间的推移各个组内的逡逑用户累计关注的游戏分类数(动作类、飞行类、策略类等总共17种分类)的变逡逑化情况。图2-2邋(a)?(e)展示了邋5组用户分别在不同时间切割点时,有多少用逡逑户关注了多少游戏分类(至少1个至多17个)的统计数值。横坐标为,随着时逡逑间的推移所发生的交互记录数占两个月记录总量的比值,从50%以5%为增量增逡逑至75%,纵坐标为用户数量。例如在图2-2邋(a)中横坐标为50°/。时的蓝色柱形,,逡逑表示在A组用户中当交互记录累计到总量(两个月)的50%时,仍只保持关注1逡逑个游戏分类的用户数只有不到20人。逡逑可以很明显的发现,百分之百的用户在这两个月内的关注焦点不超过8个分逡逑类,对于绝大部分用户当数据量不超过60%时,用户的关注焦点都集中在5个分逡逑类以内,而当数据量不超过50%时则可限制在4个分类之内。更有趣的是,当用逡逑户的交互频率与交互次数上升时
Pearson邋Correlation邋Similarity邋=逦.逦==:逦(2.9)逡逑Jlluel](Ru,x-Rx)邋JZuev(Ru.y ̄Ry)逡逑其中Ru,;c指代用户》对物品x的评分情况,5。表示用户w对所有产生过打分逡逑行为的物品的评分均值,而豆;^表示物品X所接受到的所有评分的均值水平。其实逡逑不难理解,假设现在存在一个用户A对物品1和物品2的评分分别为逡逑1分和2分,类似的另一位用户B对物品1和物品2的评分RuRw/A别为2逡逑分和1分,如图2-3所示。那么图中zee的余弦值便是一般的余弦相似距离,所以逡逑不难看出只有当两个评分向量之间的夹角越小时他们之间的余弦相似距离才会逡逑越大,反之亦然。而余弦相似距离的值域是[0,1],接近1时表示有较高的相似程逡逑度和接近0时表示评分向量的相似程度极低。值得一提的是,图中的绿色虚线部逡逑分便是这两个评分向量的欧氏距离(Euclidean邋Distance)。然而,可以很直观的逡逑看出只有当两个评分向量完全相等时才能取得最大的欧氏相似度,这显然是不合逡逑理的。同时,欧氏距离对于打分趋势是完全不敏感的,这是余弦相似距离相对于逡逑欧氏距离的优势所在。这也导致欧氏相似距离的适用场景相当局限,而目前很少逡逑在实际推荐模型得到应用。逡逑
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【参考文献】
相关期刊论文 前1条
1 罗辛;欧阳元新;熊璋;袁满;;通过相似度支持度优化基于K近邻的协同过滤算法[J];计算机学报;2010年08期
本文编号:2569427
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2569427.html