小句复合体理论框架下的英汉机器翻译译文错误分析
发布时间:2020-06-14 17:01
【摘要】:随着深度学习在机器学习领域中的发展,基于深度学习的神经机器翻译方法在机器翻译系统中得以成功运用。2016年,神经机器翻译迅猛发展,性能超越统计机器翻译,成为以谷歌翻译为代表的商业翻译系统的核心技术。机器翻译和机器翻译评测的发展相辅相成,机器翻译的发展推动了机器翻译评测的进展,机器翻译质量的评估又可以反过来促进机器翻译的发展。机器翻译评测一般分为人工评测和自动评测两种手段。近年来,自动评测技术层出不穷,以满足不同模型的评测需求。人工评测则因为评测成本高、难度大、主观性较强等因素,其发展受到制约。但人工评测的优势仍不可忽视。自动评测主要衡量的是机器翻译结果的优劣,而人工评测不仅可以评估翻译结果的优劣,还可以从语言学的角度发现翻译结果存在的问题并探究其原因,为机器翻译质量的提升寻找突破口。目前,对于以神经机器翻译为核心的英汉机器翻译系统的人工评测研究成果不多。而且从研究来看,评测的侧重点多见于词汇层、短语层、句法层和篇章层,鲜有人涉猎小句复合体层面的英汉机器翻译评测。作为语言分析的基本单位,小句的长度介于短语和句子之间。小句复合体内小句的组建方式有其独特的规律,与句子内短语、篇章中句子的组建方式不同。随着基于NT小句的英汉小句复合体理论的初步构建,本文尝试从小句复合体层面针对性地观察英汉机器翻译中在该层面上存在的困难。本研究旨在根据小句复合体理论的指导观察机器翻译系统英译汉结果的小句复合体层面的错误类型及其分布,并探讨英汉小句复合体结构差异对机器翻译的挑战,由此提出以下三个研究问题:第一,机器翻译系统英译汉结果中存在的小句复合体层面的错误有哪些类型?第二,小句复合体层面的各个错误类型的分布情况如何?第三,对造成英汉机器翻译小句复合体层面错误有影响的英汉小句复合体的结构差异有哪些?论文采用定性与定量结合的研究方法。作者随机选取宾州树库中的华尔街日报的20篇新闻为翻译原文,将其切分为497个英语句子,再以句为单位输入谷歌、百度、搜狗和小牛等四个主流在线机器翻译系统中以获取机器翻译汉语译文,这一工作在2017年1月开始,完成于同年7月;然后分别采用换行缩进的图式呈现原文与译文的话头和话体关系,进而标注机器翻译英译汉结果的小句复合体层面的错误,最后进行错误类型的统计和分析。本研究发现,英汉机器翻译结果的小句复合体层面的错误主要包括与上下文相关的词语错、话头-话体关系错、逻辑错和引用错四大类型。据数据统计,平均两个英语句子中就有可能出现一处小句复合体层面的错误,而且话头-话体关系错尤为突出。这与英汉小句复合体的话头共享关系结构差异和逻辑语义关系结构差异有着密不可分的联系。本研究在小句复合体理论的指导下观察英汉机器翻译译文的错误,揭示了英汉机器翻译译文在小句复合体层面上的错误类型及其分布,同时对可能造成这些错误的英汉小句复合体的结构差异进行分析,以期指明目前以神经机器翻译为核心的英汉机器翻译在小句复合体层面的的困难之处,为改进英汉机器翻译的质量提供参考。
【学位授予单位】:广东外语外贸大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:H085.3
本文编号:2713090
【学位授予单位】:广东外语外贸大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:H085.3
【参考文献】
相关期刊论文 前10条
1 宋柔;葛诗利;;面向篇章机器翻译的英汉翻译单位和翻译模型研究[J];中文信息学报;2015年05期
2 尚英;宋柔;卢达威;;广义话题结构理论视角下话题自足句成句性研究[J];中文信息学报;2014年06期
3 卢达威;宋柔;尚英;;从广义话题结构考察汉语篇章话题认知复杂度[J];中文信息学报;2014年05期
4 秦颖;;翻译质量自动评价研究综述[J];计算机应用研究;2015年02期
5 宋柔;;汉语篇章广义话题结构的流水模型[J];中国语文;2013年06期
6 申小龙;;论中文句型之句读本体,功能格局,事理铺排——兼论汉语句型研究中西方概念的消解[J];杭州师范大学学报(社会科学版);2013年03期
7 蒋玉茹;宋柔;;基于广义话题理论的话题句识别[J];中文信息学报;2012年05期
8 罗季美;李梅;;机器翻译译文错误分析[J];中国翻译;2012年05期
9 冯志伟;;基于语料库的机器翻译系统[J];术语标准化与信息技术;2010年01期
10 张政;王贵明;;论机器翻译系统的评价体系[J];北京理工大学学报(社会科学版);2008年02期
本文编号:2713090
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/2713090.html