当前位置:主页 > 文艺论文 > 汉语言论文 >

多种数据泛化策略融合的神经机器翻译系统

发布时间:2024-02-25 00:39
  在Transformer模型的基础上,该文从数据泛化、多样化解码策略和后处理方法3个方面进行改进.多种数据泛化策略融合方法对不同种类的稀疏词语进行识别、泛化和翻译,减少错译现象.利用检查点平均和模型集成等多样化解码策略进一步提升翻译效果.在CCMT 2019中英新闻领域翻译任务上的实验结果显示,改进后的方法在基线系统上的BLEU-SBP值提升了约1.85%.

【文章页数】:7 页

【文章目录】:
0 引言
1 Transformer模型
    1.1 基本模型结构
    1.2 注意力机制
        1.2.1 缩放点积注意力
        1.2.2 多头注意力
    1.3 位置编码
2 语料处理
    2.1 语料预处理
    2.2 分词与BPE子词处理
    2.3 语料泛化处理
        2.3.1 人名处理
        2.3.2 时间表达式
        2.3.3 数字表达
        2.3.4 网址及特殊表达
3 解码策略
    3.1 检查点平均
    3.2 模型集成
4 后处理
    4.1 泛化部分翻译和恢复
    4.2 大小写转换方法
5 实验结果
    5.1 实验参数
    5.2 实验结果及分析
        5.2.1 基本实验结果分析
        5.2.2 beam size和长度惩罚分析
6 总结



本文编号:3909800

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3909800.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户feca5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com