基于语义信息辅助的短文本主题模型研究

发布时间：2021-04-07 05:11

　　主题模型是一种挖掘文本语义信息的有效方法,属于文本挖掘的研究范畴,被广泛地应用于信息检索、自然语言处理等多个领域。经过近二十年的发展,该领域已产生了一系列较为成熟且适用于长文本的模型与算法。然而,随着在线社交网络的兴起,越来越多的数据以短文本的形式出现,为主题模型的研究带来了新的困难和挑战。首先,每个短文本文档仅由很少的单词构成,上下文信息匮乏,产生了稀疏性问题,导致长文本主题模型失效。因此短文本主题模型的设计与优化成为了一个新兴的研究分支。已有工作一般从数据层与模型层的角度进行改进,通用性较差、语义信息利用不充分,存在可改进和提升的空间。其次,传统主题模型一般使用一组一元单词描述主题信息,表述有歧义、阅读体验较差。因此主题信息的表示也是一个重要的研究问题。已有工作一般使用一组词组描述主题,但是大部分工作存在模型复杂度高以及通用性差的不足。因此,有必要展开提升主题可读性的研究。针对短文本的稀疏性问题,本文结合由词嵌入模型、语言模型等提供的语义信息,从两个方面展开模型改进的研究:基于单词建模主题以及基于单词对建模主题。针对主题的可读性问题,本文结合丰富的语义信息,从主题词组生成的思路展开...

【文章来源】：南京大学江苏省 211工程院校 985工程院校教育部直属院校

【文章页数】：138 页

【学位级别】：博士

【部分图文】：

基于语义信息辅助的短文本主题模型研究

图２．１：主题模型文档生成关系示例??

模型图,概率图,模型,主题

?／?＼?１??图２．１：主题模型文档生成关系示例??２．３主题模型代表算法??主题模型的提出最早可追溯到Ｈｏｆｍａｎｎ等人在１９９９年发表的工作［１０］，该项??工作提出了经典的ｐＬＳＡ模型，提供了以无监督学习方式进行文本主题挖掘和潜??在语义表示的新思路。此后，有关主题模型的工作得到了大量研宄人员的关注，??并经历了快速地发展，通过分析其早年的发展脉络，相关研宂主要可分为以下??三个方面：??１．放宽原有模型的假设：其一，传统主题模型大都基于词袋模型的假设，即??不考虑单词在文档中出现的先后顺序，显然如果能够加入对单词先后顺序??的考虑，模型的设计会更加合理，因此ＧｒｉｆｆＵｈｓ等人［７６］和Ｗａｌｌａｃｈ等人［６７］??针对这一问题

模型图,概率图,模型,单词

（ｂ）根据“主题－单词”概率分布（／＞采样单词叫？Ｄｉｒｉｃｈｌｅｔ（＜／〇。??ＬＤＡ模型通过上述的生成方式重复采样，直至生成一个完整的文档，其概??率图模型如图２．３所示。??Ｐ?Ｋ＿??Ｏ－—Ｏ??？?ｚ?ｗ?＼Ｗ?ｄ＼?????图２．３：?ＬＤＡ概率图模型??图２．３中加阴影部分的ｗ为可观测到的单词，白色圆圈中的０和０是需要学习??的“文档－主题”概率分布以及“主题－单词”概率分布。Ｓｔｅｙｖｅｒｓ等人提出可以??使用吉布斯采样算法（ｇｉｂｂｓ?ｓａｍｐｌｉｎｇ）?［９８］进行参数学习。在给定文档和单词??的条件下，计算主题分配的条件概率如公式（２．５）所示：??ｐｉｚｌｚ＾ｗ＾ｄ．ａｊ）＾??：－一＋，ｊ＾．?（２．５）??ＥＬ?ｎ＿Ｗｉ．２ｋｌｄ?＋?Ｋａ?ｎ＿Ｗ］Ｍｚ?＋?＼Ｗ＼ｆｔ??其中表示除当前训练样本单词斯外，文档ｄ中被分配为主题２的单词个??数；则表示除当前训练样本单词叫外，单词被分配为主题２的次数。因??此，“文档－主题”概率分布、“主题－单词”概率分布可通过公式（２．６）和公式??（２．７）计算得到：??，?ｎｚ?＼ｄ?＋?ａ??ｅｄｚ?＝??．?（２．６）??Ｊ?Ｅｔ＝ｉ?ｎｚｋ＼ｄ?＋?Ｋａ??（ｋｚｊ?—?ｎ＇ｗｉ＼ｚｉ?＾??（２?７）??０１?—?Ｅ

本文编号：3122867

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3122867.html

上一篇：基于GMM的视频目标检测算法研究及应用
下一篇：基于多特征的兵马俑断裂面匹配方法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|