基于HDP的主题词向量构造——以柬语为例
发布时间:2021-11-09 03:51
针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram模型,同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得了更好的效果,获取的主题词向量具有更多的语义信息。
【文章来源】:计算机工程与科学. 2020,42(06)北大核心CSCD
【文章页数】:9 页
【部分图文】:
改进的主题词向量模型
其中,oz为主题词向量,通过连接归一化后的词向量和主题向量获得。通过式(17)可知,本文将模型中得到的所有的主题的概率作为权重,进行加权求和,得到最终的上下文词向量。由式(17)得到上下文词向量的目的是用于衡量两个词之间的相似性,于是,给定2组具有上下文的单词(wi,ci)和(wj,cj),其上下文单词相似度的计算采用AVGSimC公式,如式(18)所示:
其中,r表示等级个数,即测试集中包含的词语对的数量;g表示2组单词之间的等级差数;gi表示第i组单词的等级差。在该实验任务中进行的对比实验是将本文所得到的主题词向量模型和Skip-Gram模型、LDA主题模型、HDP主题模型、LDA-Skip-Gram的主题词向量模型在上下文单词相似度任务上进行结果对比。
本文编号:3484566
【文章来源】:计算机工程与科学. 2020,42(06)北大核心CSCD
【文章页数】:9 页
【部分图文】:
改进的主题词向量模型
其中,oz为主题词向量,通过连接归一化后的词向量和主题向量获得。通过式(17)可知,本文将模型中得到的所有的主题的概率作为权重,进行加权求和,得到最终的上下文词向量。由式(17)得到上下文词向量的目的是用于衡量两个词之间的相似性,于是,给定2组具有上下文的单词(wi,ci)和(wj,cj),其上下文单词相似度的计算采用AVGSimC公式,如式(18)所示:
其中,r表示等级个数,即测试集中包含的词语对的数量;g表示2组单词之间的等级差数;gi表示第i组单词的等级差。在该实验任务中进行的对比实验是将本文所得到的主题词向量模型和Skip-Gram模型、LDA主题模型、HDP主题模型、LDA-Skip-Gram的主题词向量模型在上下文单词相似度任务上进行结果对比。
本文编号:3484566
本文链接:https://www.wllwen.com/waiyulunwen/zhichangyingyu/3484566.html