当前位置:主页 > 文艺论文 > 汉语言论文 >

融入依存关系的汉越组块对齐研究

发布时间:2021-06-14 21:50
  近年来,机器翻译正在逐步成为缓解人们之间进行交流时所面对的语言障碍的重要技术措施。组块(或短语)曾经在机器翻译中扮演重要角色。通过使用组块而不是单词作为基本的翻译单元,可以轻松地对本地(块内)和全局(块间)字的顺序和相关性进行修改。研究如何在前人的基础上对汉语和越南语组块进行对齐以及构建一个大型的汉语-越南语块对齐语料库具有重要研究价值。目前,汉语和英语、日语和英语等语种双语语言组块的识别取得了令人满意的结果,但对汉语和越南语之间组块关系的研究仍然少见。本文探讨影响汉越组块对齐质量的原因并分析对齐过程中的问题。同时,根据越南语言特点及其研究现状,主要完成了以下研究工作:(1)提出基于BiLSTM-CRF的越南语组块分析方法。为了提高越南组块的标注准确性,减少传统组块识别过程中的大量特征,构建了一种基于神经网络的越南组块分析模型。在分词和词性标注的基础上,没有手工添加任何越南语的语言特点,利用BiLSTM-CRF模型实现越南语组块分析。(2)提出基于注意力机制的LSTM模型的越南语组块间依存关系分析方法。为了提高汉越组块对齐的准确率,在越南语组块识别的基础上,利用注意力机制的LSTM模型... 

【文章来源】:昆明理工大学云南省

【文章页数】:61 页

【学位级别】:硕士

【部分图文】:

融入依存关系的汉越组块对齐研究


语料格式举例组块识别的目的是为了对每个词在句子中分配一个标签,由于一些组块含有多个词,

组块,格式,越南语,注意力机制


图 4-2 组块为单位的语料格式 3.4.2 节。止在模型计算中出现过拟合现象,在训练过程中引入ropout rate,其评判标准为模型输出的 F 值,其实验结表 4-5dropout rate 计算实验 2 3 4 5 6 7 0.2 0.3 0.4 0.5 0.6 0.7 3% 63.43% 71.58% 75.63% 82.45% 80.24% 76.65% 73出当 dropout rate 为 0.5 时,其模型 F 值最高,因为络结构最多。所使用的基于注意力机制的 LSTM 模型分析越南语的约 100 万词越南语组块语料,分别做支持向量机模

汉越语,依存关系,格式,越南语


群、区别词组块、独立成分、直接引语、空间组块、单句八种类型由于结构较为复杂,越南语中没有标注,所有暂的类型组块名称以越南语组块定义名称为准,例如汉语语组块标注类型“ADV”,数量短语为“MP”修改为越南语中的依存关系定义,一共有 27 种类型,其中仅仅有 6 种。不同的类型有定中结构、并列结构、标号结构、递进关刚刚起步,初步制定了较为常见的 6 中依存关系。对于不中的“定中结构”、“假设结构”、“标号结构”等修改为越南关系”、“递进关系”、“选择关系”等修改为越南语中的“存关系标注符号有所不同,以越南语定义的为主进行了“ZW”,修改为越南语定义的主谓结构“SUBJ”;汉语中状语定义的状中结构“ADVA”等等。越南语含有依存关系的语料输入语料格式如图 5-5 所示:

【参考文献】:
期刊论文
[1]卷积神经网络研究综述[J]. 李彦冬,郝宗波,雷航.  计算机应用. 2016(09)
[2]基于神经网络的统计机器翻译的预调序模型[J]. 杨南,李沐.  中文信息学报. 2016(03)
[3]越南语短语树到依存树的转换研究[J]. 李英,郭剑毅,余正涛,毛存礼,线岩团.  计算机科学与探索. 2017(04)
[4]基于词间依存的汉语基本块依存关系识别[J]. 李丽,赵文娟,樊孝忠.  计算机科学. 2013(S2)
[5]基于CRF和转换错误驱动学习的浅层句法分析[J]. 张芬,曲维光,赵红艳,周俊生.  广西师范大学学报(自然科学版). 2011(03)
[6]语义信息与CRF结合的汉语功能块自动识别[J]. 刘海霞,黄德根.  中文信息学报. 2011(05)
[7]基于浅层剖析的CYK改进算法[J]. 李永亮,黄曙光,李永成,鲍蕾.  计算机应用. 2011(05)
[8]汉语基本块规则的自动学习和扩展进化[J]. 周强.  清华大学学报(自然科学版). 2008(01)
[9]递归神经网络的结构研究[J]. 丛爽,戴谊.  计算机应用. 2004(08)
[10]一种新的双语语块对应算法[J]. 刘冬明,杨尔弘.  电脑开发与应用. 2004(03)

博士论文
[1]基于神经网络的句法分析研究[D]. 周浩.南京大学 2017
[2]双语最大名词短语分析及应用研究[D]. 李业刚.北京理工大学 2015
[3]基于语言实体关系模型的汉语句法分析[D]. 尹德春.北京理工大学 2014

硕士论文
[1]基于关系词搭配的汉语复句依存关系的层次体系的自动构建[D]. 郑印.华中师范大学 2016
[2]越南语依存树库构建以及依存关系分析方法研究[D]. 李发杰.昆明理工大学 2016
[3]越南语词法分析方法研究[D]. 熊明明.昆明理工大学 2016
[4]多动词汉语概念复合块的分析与标注研究[D]. 仵永栩.北京信息科技大学 2015
[5]汉英词语对齐技术研究[D]. 邓丹.中国科学院研究生院(计算技术研究所) 2004



本文编号:3230274

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3230274.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ab836***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com