基于知识图谱语义扩展的短文本主题建模研究
发布时间:2022-01-26 12:01
网络是人们获取信息的重要手段,手机、电脑等移动设备已经成为人们生活中不可分割的一部分,网络文本开始成为人们获取信息、传播信息的主要途径之一,这使得文本数据呈爆炸式增长。如何挖掘出文本数据的规律和隐藏的主题结构,成为机器学习领域的热门问题。主题模型在文本领域有着极为广泛的应用,通过建模可以有效的挖掘出数据中潜在的主题结构。但是传统的主题模型在面对极短的文本(如社交媒体帖子)时,由于文本数据少、上下文信息缺失,会面临严重的稀疏性问题,在短文本上的建模效果通常不佳。越来越多的研究者开始思考如何来弥补数据稀疏的问题。然而,大部分的模型虽然通过各种办法来对文本内容进行扩充,但往往认为文中每个单词之间都是独立的关系,忽略了单词之间的语义关联。在实际的场景中,人们阅读时除了文本中的内容外,头脑中已有的知识对于人类理解文本含义也十分重要,单词的词性、相关的单词等语义知识都可以帮助人们进行理解。因此,通过单词间语义关系,可以发现哪些单词有更高的概率属于同一个主题。为它们增加词共现信息从而扩充短文本表示,这更符合人类推理的模式,也能获得更高质量的主题表示。知识图谱是现阶段AI领域研究的热门,在长文本主题建...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
包含m篇文档的语料集
第2章相关理论基础与研究技术8另外一组则是代表主题-单词的骰子。首先从第二组骰子中抽取,得到K个主题-单词的骰子并命名为1到K,然后在每次生成文档时从第一组骰子中随机地抽取一个文档-主题骰子,并重复以下过程:投掷这个骰子,得到一个编号z;找到刚刚第二组中得到的编号为z的骰子;投掷并得到一个单词,这样就能生成出一篇文档。人们观察到的就是这些已经生成了的文本,所以在统计文本建模中,我们的目的就是推测出一共有哪些种类的骰子,以及它们是如何投掷的。2.1.2LDA主题模型在2003年,Blei和Jordan等学者提出了隐狄利克雷分配(LDA)模型,被认为是第一个标准意义上的主题模型,也是目前长文本分类领域使用最广泛的模型。通过对词分布的学习,LDA在非结构化的集合中能够有效学习出有价值的特征。作为文档的概率主题模型,它能够表示文档集合的底层主题结构,整体上LDA模型就是一个文本-主题-单词的三层贝叶斯概率模型。LDA主题模型的概率图如图2.2所示:图2.2LDA概率图模型
第2章相关理论基础与研究技术11采样得到该主题在词典上的多项分布~();3.对于语料集中每个文档,∈{1,……,}:a.采样得到主题~();b.对每个单词∈{,,,,……,,}:采样得到单词~()。假设短文本语料集中的全部文本数量为,词汇表大小为。K是预定义的潜在主题的数目,每篇文档都有一个对应的主题。与LDA参数设定相似,是从文档-主题多项分布中采样出来的主题,服从以为参数的狄利克雷分布。文档={,,,,……,,},其中是文档中的单词数。DMM模型也属于词袋模型,文本中每一个单词之间相互独立,通过对主题-词分布(|=)采样产生,其中多项分布服从以为参数的狄利克雷分布。主题DMM模型的概率图如图2.3所示:图2.3DMM概率图模型DMM模型依然使用吉布斯抽样来近似计算模型的隐含变量。在每一轮迭代中,根据公式2.5的条件分布为每一篇文档采样一个主题z:(=|,)∝,×∏∏(,)∈∏(,)…………(2.5)
本文编号:3610456
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
包含m篇文档的语料集
第2章相关理论基础与研究技术8另外一组则是代表主题-单词的骰子。首先从第二组骰子中抽取,得到K个主题-单词的骰子并命名为1到K,然后在每次生成文档时从第一组骰子中随机地抽取一个文档-主题骰子,并重复以下过程:投掷这个骰子,得到一个编号z;找到刚刚第二组中得到的编号为z的骰子;投掷并得到一个单词,这样就能生成出一篇文档。人们观察到的就是这些已经生成了的文本,所以在统计文本建模中,我们的目的就是推测出一共有哪些种类的骰子,以及它们是如何投掷的。2.1.2LDA主题模型在2003年,Blei和Jordan等学者提出了隐狄利克雷分配(LDA)模型,被认为是第一个标准意义上的主题模型,也是目前长文本分类领域使用最广泛的模型。通过对词分布的学习,LDA在非结构化的集合中能够有效学习出有价值的特征。作为文档的概率主题模型,它能够表示文档集合的底层主题结构,整体上LDA模型就是一个文本-主题-单词的三层贝叶斯概率模型。LDA主题模型的概率图如图2.2所示:图2.2LDA概率图模型
第2章相关理论基础与研究技术11采样得到该主题在词典上的多项分布~();3.对于语料集中每个文档,∈{1,……,}:a.采样得到主题~();b.对每个单词∈{,,,,……,,}:采样得到单词~()。假设短文本语料集中的全部文本数量为,词汇表大小为。K是预定义的潜在主题的数目,每篇文档都有一个对应的主题。与LDA参数设定相似,是从文档-主题多项分布中采样出来的主题,服从以为参数的狄利克雷分布。文档={,,,,……,,},其中是文档中的单词数。DMM模型也属于词袋模型,文本中每一个单词之间相互独立,通过对主题-词分布(|=)采样产生,其中多项分布服从以为参数的狄利克雷分布。主题DMM模型的概率图如图2.3所示:图2.3DMM概率图模型DMM模型依然使用吉布斯抽样来近似计算模型的隐含变量。在每一轮迭代中,根据公式2.5的条件分布为每一篇文档采样一个主题z:(=|,)∝,×∏∏(,)∈∏(,)…………(2.5)
本文编号:3610456
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3610456.html
最近更新
教材专著