基于词性标注和依存句法的词向量模型改进研究

发布时间:2021-06-10 12:30
  近年来,深度学习借助基于神经网络的词向量在自然语言处理领域大放异彩,席卷自然语言处理各项基础研究。词向量的质量直接影响上层自然语言处理任务的效果。而词向量模型则是训练词向量的核心,但目前诸多的词向量模型仍存在很多不足之处。这些不足之处包括:(1)网络结构问题。目前基于神经网络的词向量模型大多将上下文窗口中的词语同等对待,不考虑词语之间的依存关系;(2)信息丢失问题。固定的上下文窗口会对句子成分复杂的长句和复合句进行裁剪导致部分重要词汇的丢失;(3)未充分利用词性标注的词法结构信息和依存句法的句法结构信息。现有基于词性标注改进的研究大多仅使用词性关联修改词语在上下文中的权重,基于依存句法改进的研究大多没有考虑依存关系的差异;(4)二次采样和负采样技术过于简单。词频高的词语在进行二次采样和负采样时被同等对待,从而导致部分对预测目标词有较大影响的高频词丢失。(5)词性之间的相似度无法衡量。词性之间存在语义鸿沟,就目前所知,没有量化词性之间相似度的算法和数据集。针对基于神经网络的词向量模型所面临的多个问题,本文在现有工作的基础上,结合词性标注和依存句法分析,提出四种改进的词向量模型:(1)基于... 

【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:106 页

【学位级别】:硕士

【部分图文】:

基于词性标注和依存句法的词向量模型改进研究


CBOW和Skip-gram模型结构图

对词,相似性,模型,文本分类


第五章 实验与结果分析 5-3 可以看出,CBOW+P 模型和 CBOW+PW 模型在文本分类任务上着上下文窗口的逐渐增大呈现先增后减的趋势,均在上下文窗口 5-OW+PW 模型在上下文窗口较小的情况下的表现优于 CBOW+P 模型 模型的最优值表现好于 CBOW+PW 模型。

对词,模型,最优值,相似性


OW+PW 模型在上下文窗口较小的情况下的表现优于 CBOW+P 模型 模型的最优值表现好于 CBOW+PW 模型。图 5-1 上下文窗口大小对词相似性任务的影响

【参考文献】:
期刊论文
[1]基于词性与词序的相关因子训练的word2vec改进模型[J]. 潘博,于重重,张青川,徐世璇,曹帅.  电子学报. 2018(08)
[2]基于中文维基百科链接结构与分类体系的语义相关度计算[J]. 汪祥,贾焰,周斌,丁兆云,梁政.  小型微型计算机系统. 2011(11)
[3]北京大学现代汉语语料库基本加工规范(续)[J]. 俞士汶,段慧明,朱学锋,孙斌.  中文信息学报. 2002(06)
[4]北京大学现代汉语语料库基本加工规范[J]. 俞士汶,段慧明,朱学锋,孙斌.  中文信息学报. 2002(05)
[5]网上的基础语言信息资源[J]. 俞士汶.  术语标准化与信息技术. 2001(04)



本文编号:3222374

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3222374.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cf220***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com