当前位置:主页 > 社科论文 > 图书档案论文 >

融合领域知识与深度学习的机器翻译领域自适应研究

发布时间:2018-03-11 15:45

  本文选题:神经机器翻译 切入点:训练语料选取 出处:《情报科学》2017年10期  论文类型:期刊论文


【摘要】:【目的/意义】无论是统计机器翻译,还是神经机器翻译,训练数据通常来源复杂,主题多样,文体不一,与待翻译目标文本的领域不能保证完全一致,导致领域自适应问题。目前机器翻译的领域自适应方法大多用主题模型得到主题信息,将数据粗略划分为领域内(in-domain)和领域外(out-domain),缺乏更为明确的领域标签。【方法/过程】本研究采用中图分类号作为领域标签,采用两种方法对汉语句子进行自动领域标注领域:利用论文关键词和科技词系统等知识组织构建领域知识库的领域标注方法;训练卷积神经网络的深度学习的领域标注方法,通过神经网络深度融合模型将这两种方法融合起来得到效果更佳的领域标注器,利用机器翻译的测试集获取领域标签集合筛选其训练数据。【结果/结论】经过在神经机器翻译系统上进行测试,针对两个特定领域测试集,仅利用部分训练数据就获取了比原始训练数据高约1.3BLEU得分(相对5.4%)的翻译结果,证明了本研究方法的有效性和可行性。
[Abstract]:[Objective] whether statistical significance / Machine Translation, Machine Translation or nerve, the training data are usually complex sources and varied themes and style, to be fully consistent with the translation of the target text field can not be guaranteed, resulting in the field of adaptive problems. At present in the field of adaptive method uses Machine Translation model to obtain the theme topic information, the data will be roughly divided into the field in (in-domain) and field (out-domain), the lack of more specific field labels. [method / process] this study uses classification as field labels, automatic field annotation fields in Chinese sentences by using two kinds of methods: the marking method of constructing domain knowledge base based on keywords and technology knowledge words system the field; marking method of convolutional neural network training deep learning field, these two methods into the neural network depth fusion model Together to get a better domain tagger using the Machine Translation test set to obtain the domain label set screening training data. [Conclusion] the results / in the nervous system after Machine Translation test, according to test two specific areas, using only part of the training data could be obtained about 1.3BLEU score higher than the original training data (5.4%) relative to the translation of the results demonstrate the effectiveness and feasibility of the research method.

【作者单位】: 中国科学技术信息研究所;
【基金】:国家自然科学基金项目(61303152;71503240;71403257) 中国科学技术信息研究所重点工作项目(ZD2017-4)
【分类号】:G254;H085

【相似文献】

相关期刊论文 前3条

1 韩斌;;语言省略现象认知理解的神经网络基础[J];牡丹江大学学报;2008年03期

2 彭建武;国外认知连通主义研究综观[J];外语教学与研究;2002年04期

3 孙晓,刘宽平;基于神经网络技术的机器翻译模型[J];株洲工学院学报;2004年01期

相关硕士学位论文 前1条

1 赵竞一;以诊断排序式综合译文评价法衡量神经网络机器翻译之进展[D];北京外国语大学;2017年



本文编号:1598835

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/1598835.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c873c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com