基于K-means聚类与LSTM的词义消歧研究

发布时间:2021-03-19 16:28
  中文包含很多多义词,结合不同的语境可以表达截然不同的意思。词义消歧的概念是针对计算机在自然语言处理领域中的应用提出来的。期望通过算法模型,使计算机明确语境并自动选择歧义词汇的正确语义。词义消歧可以增强计算机使用和理解自然语言的能力,在机器翻译、文本分类等领域的应用越来越广泛。词义消歧已经演变为自然语言处理中亟待解决的重要课题。本文研究的是一种基于K-means聚类与LSTM(Long Short Term Memory,LSTM)的词义消歧方法。构建半监督K-means聚类器,对无标注语料聚类,将聚类得到的语料加入训练语料优化LSTM模型,并测试LSTM模型的性能。本文主要进行了以下几个部分的研究:首先,分析了国内外关于词义消歧的文献,对目前的研究现状和发展有了了解,明确了词义消歧的目的和意义,总结了词义消歧技术面临的困难和发展趋势。其次,介绍了实验所需的《同义词词林》词典及语料库。研究了词义消歧特征工程方面的相关知识,详细描述了K-means聚类器的聚类特征和LSTM分类器的消歧特征的预处理和选取的过程。详细说明了贝叶斯分类器和LSTM分类器的消歧过程。最后,构建半监督K-means... 

【文章来源】:哈尔滨理工大学黑龙江省

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于K-means聚类与LSTM的词义消歧研究


《同义词词林》扩展版结构

过程图,特征提取,过程,词汇


哈尔滨理工大学工学硕士学位论文-19-为聚类特征和消歧特征。特征提取过程如图3-1所示:图3-1特征提取过程Fig.3-1Processofextractfeatures首先将词窗尺寸设为2,然后查找歧义词汇,利用词窗在其左右各选取2个最近的词汇单元。在一条中文语句中最多可获得四个邻接的词汇单元。从每个词汇单元中,抽取词形、词性、语义类、英文译文和消歧距离作为消歧特征;抽取每个词汇单元的词形和语义类作为聚类特征,一方面是因为这两个特征代表性更强,包含了很多语义信息,利于聚类。另一方面是因为引入过多的聚类特征会产生更多的噪声数据,反而不利于提高聚类准确度。在一条中文语句中最多可抽取8个聚类特征和20个消歧特征。这些特征将用于对语料聚类和消歧。以包含歧义词汇“成立”的中文语句为例,特征提取过程如下所示:中文语句:上月,日本成立了“美林证券公司”。分词结果:上月,日本成立了“美林证券公司”。词性标注结果:上月/nt,/wp日本/ns成立/v了/u“/wp美林/nz证券/n公司/n”/wp。语义类标注结果:上月/nt/C,/wp/-1日本/ns/D成立/v/H了/u/K“/wp/-1美林/nz/-1证券/n/D公司/n/D”/wp/-1。去停用词结果:上月/nt/C日本/ns/D成立/v/H美林/nz/-1证券/n/D公司/n/D。英文译文标注结果:上月/nt/C/lastmonth日本/ns/D/Japan成立/v/H/美林/nz/-1/MeiLin证券/n/D/bond公司/n/D/company。

特征提取,词汇


哈尔滨理工大学工学硕士学位论文-20-消歧距离标注结果:上月/nt/C/lastmonth/-0.25日本/ns/D/Japan/-0.5成立/v/H/美林/nz/-1/MeiLin/0.5证券/n/D/bond/0.25公司/n/D/company/0.125。以歧义词汇“成立”为中心,利用词窗选取它左侧的词汇单元为“上月/nt/C/lastmonth/-0.25”和“日本/ns/D/Japan/-0.5”右侧的词汇单元为“美林/nz/-1/MeiLin/0.5”和“证券/n/D/bond/0.25”。从每个词汇单元中提取的特征如图3-2所示。图3-2特征提取结果Fig.3-2Resultoffeaturesextraction3.3特征向量化第3.2节对语料进行了预处理,提取了聚类特征和消歧特征,提取好的特征要转换为计算机可以识别的数据才能作为输入数据输入到模型中。目前可以通过特征的频度或位置对特征进行转换。频度是指在语料库中查询每一个特征出现的频度,然后将每一个特征的频度转化为指定长度的二进制向量。位置是指依据分词结果对语料库构建词汇表,每一个特征都有唯一位置与其对应,利用单一位置在一个已知矩阵中取得唯一向量与其对应。本文利用词汇在词汇表中的位置对提取的特征进行向量化。

【参考文献】:
期刊论文
[1]多义词语义拓扑及有监督的词义消歧研究[J]. 肖锐,蒋家琪,张云春.  计算机科学. 2019(S2)
[2]基于知识图谱词义消歧的文本聚类方法[J]. 张延星,王广祥,朱志芸,张蝶依.  华北理工大学学报(自然科学版). 2019(04)
[3]一种基于全局领域和短期记忆因子的图模型[J]. 邵玉涵,李培培,胡学钢.  计算机工程与科学. 2019(10)
[4]采用Seq2Seq模型的非受限词义消歧方法[J]. 唐善成,马付玉,张镤月,陈熊熊.  西北大学学报(自然科学版). 2019(03)
[5]基于神经网络的词义消歧[J]. 王子牛,陈娅先,高建瓴,吴建华,王许.  软件. 2019(02)
[6]一种基于词义向量模型的词语语义相似度算法[J]. 李小涛,游树娟,陈维.  自动化学报. 2020(08)
[7]引入词性标记的基于语境相似度的词义消歧[J]. 孟禹光,周俏丽,张桂平,蔡东风.  中文信息学报. 2018(08)
[8]汉语复句中基于依存关系与最大熵模型的词义消歧方法研究[J]. 李源,翟宏森,刘凤娇,黄文灿,杨梦川.  计算机与数字工程. 2018(01)
[9]基于上下文翻译的有监督词义消歧研究[J]. 杨陟卓.  计算机科学. 2017(04)
[10]基于主题模型的中文词义归纳[J]. 高章敏,何祥,刘嘉勇,汤殿华.  四川大学学报(自然科学版). 2016(06)

硕士论文
[1]基于DBN的词义消歧研究[D]. 李海瑞.哈尔滨理工大学 2019



本文编号:3089868

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3089868.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户72065***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com