基于知识图谱语义扩展的短文本主题建模研究

发布时间：2022-01-26 12:01

　　网络是人们获取信息的重要手段,手机、电脑等移动设备已经成为人们生活中不可分割的一部分,网络文本开始成为人们获取信息、传播信息的主要途径之一,这使得文本数据呈爆炸式增长。如何挖掘出文本数据的规律和隐藏的主题结构,成为机器学习领域的热门问题。主题模型在文本领域有着极为广泛的应用,通过建模可以有效的挖掘出数据中潜在的主题结构。但是传统的主题模型在面对极短的文本（如社交媒体帖子）时,由于文本数据少、上下文信息缺失,会面临严重的稀疏性问题,在短文本上的建模效果通常不佳。越来越多的研究者开始思考如何来弥补数据稀疏的问题。然而,大部分的模型虽然通过各种办法来对文本内容进行扩充,但往往认为文中每个单词之间都是独立的关系,忽略了单词之间的语义关联。在实际的场景中,人们阅读时除了文本中的内容外,头脑中已有的知识对于人类理解文本含义也十分重要,单词的词性、相关的单词等语义知识都可以帮助人们进行理解。因此,通过单词间语义关系,可以发现哪些单词有更高的概率属于同一个主题。为它们增加词共现信息从而扩充短文本表示,这更符合人类推理的模式,也能获得更高质量的主题表示。知识图谱是现阶段AI领域研究的热门,在长文本主题建...

【文章来源】：吉林大学吉林省 211工程院校 985工程院校教育部直属院校

【文章页数】：56 页

【学位级别】：硕士

【部分图文】：

包含m篇文档的语料集

模型图,概率,模型,骰子

第2章相关理论基础与研究技术8另外一组则是代表主题-单词的骰子。首先从第二组骰子中抽取，得到K个主题-单词的骰子并命名为1到K，然后在每次生成文档时从第一组骰子中随机地抽取一个文档-主题骰子，并重复以下过程：投掷这个骰子，得到一个编号z；找到刚刚第二组中得到的编号为z的骰子；投掷并得到一个单词，这样就能生成出一篇文档。人们观察到的就是这些已经生成了的文本，所以在统计文本建模中，我们的目的就是推测出一共有哪些种类的骰子，以及它们是如何投掷的。2.1.2LDA主题模型在2003年，Blei和Jordan等学者提出了隐狄利克雷分配（LDA）模型，被认为是第一个标准意义上的主题模型，也是目前长文本分类领域使用最广泛的模型。通过对词分布的学习，LDA在非结构化的集合中能够有效学习出有价值的特征。作为文档的概率主题模型，它能够表示文档集合的底层主题结构，整体上LDA模型就是一个文本-主题-单词的三层贝叶斯概率模型。LDA主题模型的概率图如图2.2所示：图2.2LDA概率图模型

模型图,概率,模型,主题

第2章相关理论基础与研究技术11采样得到该主题在词典上的多项分布~()；3.对于语料集中每个文档，∈{1,……,}：a.采样得到主题~()；b.对每个单词∈{,,,,……,,}：采样得到单词~()。假设短文本语料集中的全部文本数量为，词汇表大小为。K是预定义的潜在主题的数目，每篇文档都有一个对应的主题。与LDA参数设定相似，是从文档-主题多项分布中采样出来的主题，服从以为参数的狄利克雷分布。文档={,,,,……,,}，其中是文档中的单词数。DMM模型也属于词袋模型，文本中每一个单词之间相互独立，通过对主题-词分布(|=)采样产生，其中多项分布服从以为参数的狄利克雷分布。主题DMM模型的概率图如图2.3所示：图2.3DMM概率图模型DMM模型依然使用吉布斯抽样来近似计算模型的隐含变量。在每一轮迭代中，根据公式2.5的条件分布为每一篇文档采样一个主题z:(=|,)∝,×∏∏(,)∈∏(,)…………（2.5）

本文编号：3610456

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3610456.html

上一篇：基于证据匹配的案件质量评估方法设计与实现
下一篇：基于先验模型的图像去噪研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|