短文本主题信息挖掘技术研究

发布时间:2024-05-21 22:41
  网络社交媒体的快速发展,标志着迎来了信息快速变更共享的时代。网络社交媒体与传统的信息行业相结合,开发出许多和生活联系紧密的新应用,提高了人们的使用意愿。短文本信息作为新应用的主要表现形式之一,从中挖掘出有效的主题有重要的意义。目前,主题模型技术已然取得了不小的成果,成为文本信息智能化处理的重要方式之一。但是,由于短文本中文档和词之间的数据比较稀疏,传统模型在对短文本进行主题信息挖掘时,挖掘的效果并不理想。除此之外,利用文本集的词共现信息扩充数据获得主题分布成为短文本主题挖掘的主流方式,诸多研究均基于此种思想进行改进,但是,当前此类主题模型研究中对共现词语的语义较少考虑,本文提出基于语义分析的双词短文本主题模型(Semantic Analysis Biterms Topic Model,SA-BTM),在采用共现的双词获取主题时考虑语义关系对结果的影响。同时本文对与主题挖掘效果联系密切的主题维度确定方式进行了研究。本文的主要工作如下:1)研究共现词语语义关系对主题挖掘效果的影响。本文通过对大量文本数据进行训练,将共现词语用能够表征语义关系的词嵌入向量形式来表示,词语之间的语义关系通过语义...

【文章页数】:59 页

【学位级别】:硕士

【部分图文】:

图2.1词向量空间示意图

图2.1词向量空间示意图

第2章相关理论与技术9的部分词向量的空间示意图。图2.1词向量空间示意图Fig.2.1Schematicdiagramofwordvectorspace图中数据是通过大量文本作为训练数据,训练得出的结果[21]。从图中可以看出,词语的语义相关程度大,或者词语在句子中常用位置相同,....


图2.2CBOW模型

图2.2CBOW模型

第2章相关理论与技术11泛的应用[44]。对于训练模型中的输入和输出有两种,分为CBOW(ContinuousBag-of-Words)模型和Skip-Gram模型,如图2.2~图2.3所示。图2.2CBOW模型Fig.2.2CBOWmodel其中,w(t-2)、w(t-1)、w....


图2.3Skip-Gram模型

图2.3Skip-Gram模型

第2章相关理论与技术11泛的应用[44]。对于训练模型中的输入和输出有两种,分为CBOW(ContinuousBag-of-Words)模型和Skip-Gram模型,如图2.2~图2.3所示。图2.2CBOW模型Fig.2.2CBOWmodel其中,w(t-2)、w(t-1)、w....


图2.4LDA概率图模型

图2.4LDA概率图模型

第2章相关理论与技术13图2.4LDA概率图模型Fig.2.4LDAprobabilitygraphmodel其中α、β为计算共轭分布的超参数,Z表示“主题-词”的分布情况,其维度为K,w表示文档中的观察词语,d表示文档,其维度为D,文档d的主题分布和主题维度K的词汇分布分别为θ....



本文编号:3980024

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3980024.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户04223***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com