基于预训练模型的机器翻译译文检测方法
发布时间:2021-10-24 12:07
机器翻译译文检测任务旨在大规模文本中判别每句话是机器翻译译文还是人工翻译译文。现有的机器翻译译文检测方法大都采用统计的方法提取特征,但是基于统计的方法提取特征能力有限,严重依赖于离散的手工特征,而神经网络模型使用分布式表示,构建代价较低且能表达细粒度的句法、语义特征差别。在本文中,我们提出使用预训练语言模型和双向门控循环单元模型结合,提取机器翻译译文的语言风格、惯用词等隐层表示作为特征来检测机器翻译译文,检测结果相较之前的统计方法有很大的提升。本文尝试使用所提方法过滤混合机器翻译译文的双语语料,过滤后的语料相较原始的语料规模减小了,但是模型的性能却略有提升。
【文章来源】:情报工程. 2020,6(05)
【文章页数】:12 页
【部分图文】:
人工翻译译文和机器翻译译文的回译差异
Li等[15]只使用目标侧提取语言特征且这些特征独立于源语言,很多语言特征与句子的句法结构直接相关。他们在实验中发现人工翻译文本在解析树的结构上比机器翻译文本更加平衡。因此,他们从解析树中提取一系列基于平衡的特征训练基于线性核的SVM分类器。当我们在检测一个译文时,可以提取一系列有效的特征,比如句子结构、所有组成类型和名词短语的右分支节点数、所有组成类型和名词短语的左分支节点数等。该方法还考虑了虚词和代词的密度,这是SMT系统通常出错的错误类型。在密度特征层面,该方法提取了整体功能字密度、限定词的密度、量词的密度、代词的密度、介词的密度、标点符号的密度、助动词的密度等特征。通常,集外词(Out of Vocabulary,OOV)的出现通常会使句子结构更加复杂。而且,像主谓不一致这样的问题也很容易被识别,该方法会融入一些基于词汇层面的特征,例如集外词的数量、根结点的孩子节点类型等。另外,我们将句子内的情感一致性作为特征进行评分,由于一个合理的句子应该在不同的词语之间具有一致的情感强度。示例插图(图3)所示为一个解析树的例子。该方法只使用目标侧语言充分利用解析树表示句法结构特征,人工设计平衡性、密度、树的分支节点比例等多种特征,但是未考虑句子流畅性等特征,且人工设计特征复杂繁琐,对不同的语言不具有普适性。
BERT+Bi-GRU模型示意图
本文编号:3455257
【文章来源】:情报工程. 2020,6(05)
【文章页数】:12 页
【部分图文】:
人工翻译译文和机器翻译译文的回译差异
Li等[15]只使用目标侧提取语言特征且这些特征独立于源语言,很多语言特征与句子的句法结构直接相关。他们在实验中发现人工翻译文本在解析树的结构上比机器翻译文本更加平衡。因此,他们从解析树中提取一系列基于平衡的特征训练基于线性核的SVM分类器。当我们在检测一个译文时,可以提取一系列有效的特征,比如句子结构、所有组成类型和名词短语的右分支节点数、所有组成类型和名词短语的左分支节点数等。该方法还考虑了虚词和代词的密度,这是SMT系统通常出错的错误类型。在密度特征层面,该方法提取了整体功能字密度、限定词的密度、量词的密度、代词的密度、介词的密度、标点符号的密度、助动词的密度等特征。通常,集外词(Out of Vocabulary,OOV)的出现通常会使句子结构更加复杂。而且,像主谓不一致这样的问题也很容易被识别,该方法会融入一些基于词汇层面的特征,例如集外词的数量、根结点的孩子节点类型等。另外,我们将句子内的情感一致性作为特征进行评分,由于一个合理的句子应该在不同的词语之间具有一致的情感强度。示例插图(图3)所示为一个解析树的例子。该方法只使用目标侧语言充分利用解析树表示句法结构特征,人工设计平衡性、密度、树的分支节点比例等多种特征,但是未考虑句子流畅性等特征,且人工设计特征复杂繁琐,对不同的语言不具有普适性。
BERT+Bi-GRU模型示意图
本文编号:3455257
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3455257.html