基于主题模型的标签推荐方法
发布时间:2020-12-31 20:41
随着大数据时代的到来,互联网上各种数据信息呈指数级增长,虽然用户能访问到几乎所有互联网资源,但由于很多资源未被整理以及数据过载等问题,在搜索想要的资源时通常效率较低且十分耗时。此外,如何高效地管理如此巨大的数据库已经成为管理者面临的严峻挑战。标签是用户对资源语义信息的简单描述,充分利用标签信息不仅可以有效提高信息检索效率,还可以帮助网站对资源进行分类和建立索引。随着标签系统的发展,互联网上出现了大量标签,但标签的质量却良莠不齐。由于用户的标注习惯、文化水平、拼写错误等主观因素,标签中出现了大量的不规则、无意义、有歧义的标签,这类质量较低的标签严重影响了信息检索的质量和标签推荐的效果。因此,有必要研究出一种稳定、有效的自动标签推荐方法。目前大部分标签推荐方法主要通过挖掘资源的内容信息进行推荐。然而,现实世界中很多数据信息并非独立存在,如文献数据通过相互引用关系而形成复杂的网络结构。研究表明资源的拓扑结构信息和文本内容信息可分别从两个不同角度对同一资源的语义特征进行概括,并且从两方面观察到的信息可以互为补充和解释。基于此,本文在已有研究工作的基础上,主要做了以下两个方面的工作:(1)提出了...
【文章来源】:湖南科技大学湖南省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
CiteULike网站中的一篇文章实例Fig.1.1AnarticleintheCiteULikewebsite
第1章绪论-2-图1.1CiteULike网站中的一篇文章实例Fig.1.1AnarticleintheCiteULikewebsite图1.2使用标签“mesophase”和“petroleum”进行搜索的结果Fig.1.2Searchresultsbyusingkeywords“mephase”and“petroleum”1.2国内外研究现状在Web2.0时代,由于标签在信息检索、信息处理、信息管理等方面发挥了巨大的作用,近些年来得到了科学界与工业界的广泛关注,被学者们认为是解决信息爆炸时代数据组织、管理和挖掘的最有效工具。本小节把现有的国内外标签推荐方法分为基于协同过滤的标签推荐方法、基于内容的标签推荐方法和基于混合的标签推荐方法三类。(1)基于协同过滤的标签推荐技术。在使用协同过滤算法进行标签推荐时,常常会遇到冷启动、资源稀疏、系统可扩展性差等问题[9-11],目前大多数研究工作都是围绕解决这些问题而展开的。Mishne等人[12]度量了不同用户之间配置文件的相关性,使用基于用户的协同过滤方法为目标用户推荐和其配置文件主题最相近用户的标签,实验结果表明,该方法在为微博用户推荐标签上取得了较好的效果。Lipcazk等人[13]提出了一种新颖的计算资源主题相似度的方法,该方法通过计算不同资源主题之间的相似度,将与目标资源主题相似度较高的资源的标签推荐给目标资源,但仅仅使用资源之间的相关度会忽略标签之间的语义歧义性,有可能出现标签过拟合的情况,导致推荐效果一般。Gemmell等人[14]通过挖掘社会化标注系统中用户之间及资源之间的相关性,挖掘资源的主题分布并对标签进行分类,最后通过不同用户或不同资源之间的特征推荐最符合的标
湖南科技大学硕士学位论文-13-(()=|())=(())+(())+(2.4)(()|()=)=(())+()+(2.5)图2.4Tag-LDA主题模型Fig.2.4PlatenotationofTag-LDAmodel2.3.3RTM主题模型RTM(RelationTopicModel,RTM)模型认为资源的主题分部信息不仅可以由资源的文本内容信息体现,还可以由与该资源有网络链接关系的资源的主题体现。在标签推荐任务中,使用RTM主题模型不仅可以挖掘资源本体的主题信息,还可以挖掘与资源有链接关系资源的主题信息,将二者结合可以有效地推断资源的主题分布,找到资源之间的相似关系后为新资源推荐主题最相近资源的标签。模型图如图2.5所示:"(c)θα(c)θ"(c)iz"c,cy"(c)iW(c)iW"(c)WW(c)Tβ(c)iz图2.5RTM主题模型Fig.2.5PlatenotationofRTMmodel其中,()表示文章C的主题分布向量,(′)表示和文章C有引用关系的文章的向量。,′是一个可观测到的变量,表示两篇文章是否有引用关系。每两篇文章都有这样
【参考文献】:
期刊论文
[1]一种融合个性化与多样性的人物标签推荐方法[J]. 颛悦,熊锦华,程学旗. 中文信息学报. 2017(02)
[2]基于标签混合语义空间的音乐推荐方法研究[J]. 闫俊,刘文飞,林鸿飞. 中文信息学报. 2014(04)
[3]面向微博用户标签推荐的关系约束主题模型[J]. 徐彬,杨丹,张昱,李封,高克宁. 计算机科学与探索. 2014(03)
[4]融合关系与内容分析的社会标签推荐[J]. 张斌,张引,高克宁,郭朋伟,孙达明. 软件学报. 2012(03)
[5]一种面向微博用户的标签推荐方法[J]. 陈渊,林磊,孙承杰,刘秉权. 智能计算机与应用. 2011(05)
本文编号:2950281
【文章来源】:湖南科技大学湖南省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
CiteULike网站中的一篇文章实例Fig.1.1AnarticleintheCiteULikewebsite
第1章绪论-2-图1.1CiteULike网站中的一篇文章实例Fig.1.1AnarticleintheCiteULikewebsite图1.2使用标签“mesophase”和“petroleum”进行搜索的结果Fig.1.2Searchresultsbyusingkeywords“mephase”and“petroleum”1.2国内外研究现状在Web2.0时代,由于标签在信息检索、信息处理、信息管理等方面发挥了巨大的作用,近些年来得到了科学界与工业界的广泛关注,被学者们认为是解决信息爆炸时代数据组织、管理和挖掘的最有效工具。本小节把现有的国内外标签推荐方法分为基于协同过滤的标签推荐方法、基于内容的标签推荐方法和基于混合的标签推荐方法三类。(1)基于协同过滤的标签推荐技术。在使用协同过滤算法进行标签推荐时,常常会遇到冷启动、资源稀疏、系统可扩展性差等问题[9-11],目前大多数研究工作都是围绕解决这些问题而展开的。Mishne等人[12]度量了不同用户之间配置文件的相关性,使用基于用户的协同过滤方法为目标用户推荐和其配置文件主题最相近用户的标签,实验结果表明,该方法在为微博用户推荐标签上取得了较好的效果。Lipcazk等人[13]提出了一种新颖的计算资源主题相似度的方法,该方法通过计算不同资源主题之间的相似度,将与目标资源主题相似度较高的资源的标签推荐给目标资源,但仅仅使用资源之间的相关度会忽略标签之间的语义歧义性,有可能出现标签过拟合的情况,导致推荐效果一般。Gemmell等人[14]通过挖掘社会化标注系统中用户之间及资源之间的相关性,挖掘资源的主题分布并对标签进行分类,最后通过不同用户或不同资源之间的特征推荐最符合的标
湖南科技大学硕士学位论文-13-(()=|())=(())+(())+(2.4)(()|()=)=(())+()+(2.5)图2.4Tag-LDA主题模型Fig.2.4PlatenotationofTag-LDAmodel2.3.3RTM主题模型RTM(RelationTopicModel,RTM)模型认为资源的主题分部信息不仅可以由资源的文本内容信息体现,还可以由与该资源有网络链接关系的资源的主题体现。在标签推荐任务中,使用RTM主题模型不仅可以挖掘资源本体的主题信息,还可以挖掘与资源有链接关系资源的主题信息,将二者结合可以有效地推断资源的主题分布,找到资源之间的相似关系后为新资源推荐主题最相近资源的标签。模型图如图2.5所示:"(c)θα(c)θ"(c)iz"c,cy"(c)iW(c)iW"(c)WW(c)Tβ(c)iz图2.5RTM主题模型Fig.2.5PlatenotationofRTMmodel其中,()表示文章C的主题分布向量,(′)表示和文章C有引用关系的文章的向量。,′是一个可观测到的变量,表示两篇文章是否有引用关系。每两篇文章都有这样
【参考文献】:
期刊论文
[1]一种融合个性化与多样性的人物标签推荐方法[J]. 颛悦,熊锦华,程学旗. 中文信息学报. 2017(02)
[2]基于标签混合语义空间的音乐推荐方法研究[J]. 闫俊,刘文飞,林鸿飞. 中文信息学报. 2014(04)
[3]面向微博用户标签推荐的关系约束主题模型[J]. 徐彬,杨丹,张昱,李封,高克宁. 计算机科学与探索. 2014(03)
[4]融合关系与内容分析的社会标签推荐[J]. 张斌,张引,高克宁,郭朋伟,孙达明. 软件学报. 2012(03)
[5]一种面向微博用户的标签推荐方法[J]. 陈渊,林磊,孙承杰,刘秉权. 智能计算机与应用. 2011(05)
本文编号:2950281
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2950281.html