基于语义信息辅助的短文本主题模型研究
发布时间:2021-04-07 05:11
主题模型是一种挖掘文本语义信息的有效方法,属于文本挖掘的研究范畴,被广泛地应用于信息检索、自然语言处理等多个领域。经过近二十年的发展,该领域已产生了一系列较为成熟且适用于长文本的模型与算法。然而,随着在线社交网络的兴起,越来越多的数据以短文本的形式出现,为主题模型的研究带来了新的困难和挑战。首先,每个短文本文档仅由很少的单词构成,上下文信息匮乏,产生了稀疏性问题,导致长文本主题模型失效。因此短文本主题模型的设计与优化成为了一个新兴的研究分支。已有工作一般从数据层与模型层的角度进行改进,通用性较差、语义信息利用不充分,存在可改进和提升的空间。其次,传统主题模型一般使用一组一元单词描述主题信息,表述有歧义、阅读体验较差。因此主题信息的表示也是一个重要的研究问题。已有工作一般使用一组词组描述主题,但是大部分工作存在模型复杂度高以及通用性差的不足。因此,有必要展开提升主题可读性的研究。针对短文本的稀疏性问题,本文结合由词嵌入模型、语言模型等提供的语义信息,从两个方面展开模型改进的研究:基于单词建模主题以及基于单词对建模主题。针对主题的可读性问题,本文结合丰富的语义信息,从主题词组生成的思路展开...
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:138 页
【学位级别】:博士
【部分图文】:
图2.1:主题模型文档生成关系示例??
?/?\?1??图2.1:主题模型文档生成关系示例??2.3主题模型代表算法??主题模型的提出最早可追溯到Hofmann等人在1999年发表的工作[10],该项??工作提出了经典的pLSA模型,提供了以无监督学习方式进行文本主题挖掘和潜??在语义表示的新思路。此后,有关主题模型的工作得到了大量研宄人员的关注,??并经历了快速地发展,通过分析其早年的发展脉络,相关研宂主要可分为以下??三个方面:??1.放宽原有模型的假设:其一,传统主题模型大都基于词袋模型的假设,即??不考虑单词在文档中出现的先后顺序,显然如果能够加入对单词先后顺序??的考虑,模型的设计会更加合理,因此GriffUhs等人[76]和Wallach等人[67]??针对这一问题
(b)根据“主题-单词”概率分布(/>采样单词叫?Dirichlet(</〇。??LDA模型通过上述的生成方式重复采样,直至生成一个完整的文档,其概??率图模型如图2.3所示。??P?K_??O-—O????z?w?\W?d\?????图2.3:?LDA概率图模型??图2.3中加阴影部分的w为可观测到的单词,白色圆圈中的0和0是需要学习??的“文档-主题”概率分布以及“主题-单词”概率分布。Steyvers等人提出可以??使用吉布斯采样算法(gibbs?sampling)?[98]进行参数学习。在给定文档和单词??的条件下,计算主题分配的条件概率如公式(2.5)所示:??pizlz^w^d.aj)^??:-一+,j^.?(2.5)??EL?n_Wi.2kld?+?Ka?n_W]Mz?+?\W\ft??其中表示除当前训练样本单词斯外,文档d中被分配为主题2的单词个??数;则表示除当前训练样本单词叫外,单词被分配为主题2的次数。因??此,“文档-主题”概率分布、“主题-单词”概率分布可通过公式(2.6)和公式??(2.7)计算得到:??,?nz?\d?+?a??edz?=??.?(2.6)??J?Et=i?nzk\d?+?Ka??(kzj?—?n'wi\zi?^??(2?7)??01?—?E
本文编号:3122867
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:138 页
【学位级别】:博士
【部分图文】:
图2.1:主题模型文档生成关系示例??
?/?\?1??图2.1:主题模型文档生成关系示例??2.3主题模型代表算法??主题模型的提出最早可追溯到Hofmann等人在1999年发表的工作[10],该项??工作提出了经典的pLSA模型,提供了以无监督学习方式进行文本主题挖掘和潜??在语义表示的新思路。此后,有关主题模型的工作得到了大量研宄人员的关注,??并经历了快速地发展,通过分析其早年的发展脉络,相关研宂主要可分为以下??三个方面:??1.放宽原有模型的假设:其一,传统主题模型大都基于词袋模型的假设,即??不考虑单词在文档中出现的先后顺序,显然如果能够加入对单词先后顺序??的考虑,模型的设计会更加合理,因此GriffUhs等人[76]和Wallach等人[67]??针对这一问题
(b)根据“主题-单词”概率分布(/>采样单词叫?Dirichlet(</〇。??LDA模型通过上述的生成方式重复采样,直至生成一个完整的文档,其概??率图模型如图2.3所示。??P?K_??O-—O????z?w?\W?d\?????图2.3:?LDA概率图模型??图2.3中加阴影部分的w为可观测到的单词,白色圆圈中的0和0是需要学习??的“文档-主题”概率分布以及“主题-单词”概率分布。Steyvers等人提出可以??使用吉布斯采样算法(gibbs?sampling)?[98]进行参数学习。在给定文档和单词??的条件下,计算主题分配的条件概率如公式(2.5)所示:??pizlz^w^d.aj)^??:-一+,j^.?(2.5)??EL?n_Wi.2kld?+?Ka?n_W]Mz?+?\W\ft??其中表示除当前训练样本单词斯外,文档d中被分配为主题2的单词个??数;则表示除当前训练样本单词叫外,单词被分配为主题2的次数。因??此,“文档-主题”概率分布、“主题-单词”概率分布可通过公式(2.6)和公式??(2.7)计算得到:??,?nz?\d?+?a??edz?=??.?(2.6)??J?Et=i?nzk\d?+?Ka??(kzj?—?n'wi\zi?^??(2?7)??01?—?E
本文编号:3122867
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3122867.html
最近更新
教材专著