基于神经网络的中文词义消歧研究

发布时间:2024-05-12 23:55
  词汇的歧义性是自然语言的固有特征,词义消歧作为自然语言处理的一个基础任务,其结果对信息检索、机器翻译和信息抽取等上层任务具有直接影响。通过大规模语料训练的词向量包含了丰富的语义和句法信息,将其加入词义消歧模型中,可以提高模型的准确率。随着神经网络的发展和计算机处理能力的提高,神经网络在许多自然语言处理任务中取得了重大进展,但基于神经网络的中文词义消歧研究相对较少,且已有的少数工作忽略了目标词的外部知识。故本文对于中文词义消歧任务,分别从统计机器学习方法和神经网络方法进行研究,具体工作如下:(1)提出了基于词向量的支持向量机(Support Vector Machine,SVM)中文词义消歧模型。使用词向量表示的上下文词特征和词性特征代替之前统计机器学习方法中的复杂特征,作为SVM分类器的输入特征。本文使用ngram2vec模型训练的中文词向量,在词向量训练时将字特征和ngram特征加入到上下文特征中。该模型在SemEval 2007 task5中文采样词词义消歧任务中宏平均准确率为80.44%,相对于该数据集中机器学习模型的最好结果,宏平均准确率提高2.56%;在郑州大学构建的汉语词义...

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

图2.2LSTM神经元结构图

图2.2LSTM神经元结构图

图2.2LSTM神经元结构图eiter等人[61]在1997年提出LSTM引入了记忆单元和门控和长期状态,解决了RNN中梯度消失和梯度爆炸问题。当使用序列模型的时候,LSTM能够捕获很长时期内的解决的长期依赖问题。LSTM关键部分是记忆单元,它将来,同时....


图3.3中心词预测周围bigram示例

图3.3中心词预测周围bigram示例

其中()≤≤,m为上下文窗口大小,t为中心词在句子中的位置。图3.2中心词预测周围词语示例如图3.2所示,语料库句子T为“选拔出色的医生任急诊室主任”,当中心词为“医生”,窗口m=2....


图4.4CSD名词库

图4.4CSD名词库

料中词义描述相对应,本文通过CSD中“WORD”字段将“释义”和“备注”(例句)作为目标词的外部添加知识。例如目标词“中医”的一个词义描述为“traditionalChinesemedicalscience”,找到CSD中和该词“Word”字段为“traditiona....


图4.3CSD动词库

图4.3CSD动词库

4基于语言知识和神经网络的中文词义消歧模型和10个词性的分表,由于SemEval2007中文词义消歧语料库只包含名词和动词的目标词,本文只用到CSD词典的动词库和名词库。图4.3、图4.4分别为CSD词典动词和,名词词库示例,词表中隐藏了和本文工作无关的字段....



本文编号:3972075

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3972075.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7fd2e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com