基于语义扩展信息与词三角的短文本主题模型研究
发布时间:2021-11-05 01:58
随着社会发展节奏的不断加快以及智能移动终端带来的“短平快”的用户体验,人们在网络上的交流越来越趋于碎片化。因此,短文本数据在如今的网络信息交互中占据着越来越重要的地位,例如社交网络状态、微博文本消息、传统新闻标题、短视频标题和问答网站等都是以短文本的形式表达信息。并且随着微博、知乎、FaceBook、Twitter等大体量公司的崛起,短文本数据也是以极大的速度产生并积累着。因此,针对短文本数据的主题模型具有十分重大的价值,例如舆情分析、信息检索、个性化推荐、用户兴趣聚类等都是主题挖掘的应用方向。而另一方面,使用传统的文本挖掘方法来挖掘短文本的主题信息却存在很大的困难,主要原因是短文本中词共现信息十分稀疏。为了从短文本中得到更多的特征信息,学者们提出了各种各样的改进模型,但大部分忽略了词语间的语义关系。针对这一问题,本文提出一种基于将语义信息与词频信息作为先验知识的词对主题模型算法,并在此基础上进一步对主题单元的结构展开研究,提出了语义词三角主题模型。本文的主要工作如下:1)针对传统的词对主题模型对不同重要性的词对都同等看待的问题,本文假设语义联系越紧密的词语属于同一个主题的概率越大。在...
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图2-1:?PLSA概率图模型??
?np??图2-1:?PLSA概率图模型??由此可知整个文档集的生成概率为:??^?n(di,?Wj)P(zk\di)P(wj\zk)?(2-5)??D?W??将上式作为似然函数,即可使用EM算法估算参数丨而和P(w;_|Z|〇的??值丨气??相对于LSA而言,PLSA有着坚实的统计学基础,结果的可解释性更好。??同时PLSA使用EM算法进行参数估计,相对于奇异值分解在计算复杂度上有??了很大程度的降低。但是随着样本数据的增大,模型参数仍然会线性增长。并??且由于PLSA完全依赖训练集数据,面对新加入的文档时只能扩大训练集重新??训练,因此其泛化性能仍然较差。??2.2.3潜在狄利克雷分布??潜在狄利克雷分布(Latent?Dirichlet?Allocation
合-主题”分布对应的狄利克雷分布的超参数,P为“主题-词语”分布对应的??狄利克雷分布的超参数。则BTM模型的生成过程可表示如下,同时概率图模??型如图2-3所示。??1)
本文编号:3476841
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图2-1:?PLSA概率图模型??
?np??图2-1:?PLSA概率图模型??由此可知整个文档集的生成概率为:??^?n(di,?Wj)P(zk\di)P(wj\zk)?(2-5)??D?W??将上式作为似然函数,即可使用EM算法估算参数丨而和P(w;_|Z|〇的??值丨气??相对于LSA而言,PLSA有着坚实的统计学基础,结果的可解释性更好。??同时PLSA使用EM算法进行参数估计,相对于奇异值分解在计算复杂度上有??了很大程度的降低。但是随着样本数据的增大,模型参数仍然会线性增长。并??且由于PLSA完全依赖训练集数据,面对新加入的文档时只能扩大训练集重新??训练,因此其泛化性能仍然较差。??2.2.3潜在狄利克雷分布??潜在狄利克雷分布(Latent?Dirichlet?Allocation
合-主题”分布对应的狄利克雷分布的超参数,P为“主题-词语”分布对应的??狄利克雷分布的超参数。则BTM模型的生成过程可表示如下,同时概率图模??型如图2-3所示。??1)
本文编号:3476841
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3476841.html