面向图片描述翻译的模态适应性研究
发布时间:2021-06-28 05:51
图片描述翻译任务是通过机器翻译系统,将图片源语言端描述翻译为目标语言。图片描述都是以短文本为主,无法为翻译系统提供足够的上下文信息。因此,如何将图片信息更好的融入翻译系统,从而解决跨模态信息融合问题是该任务的重点。本文从统计机器翻译、神经机器翻译出发,集中研究具有较强适应性的图片描述翻译优化方法。在统计机器翻译中,本文针对语料中的歧义词问题,通过图片主题信息对翻译模型进行优化;在神经机器翻译中,本文通过优化图片特征对语言特征学习的支持性作用提高翻译系统的性能。本文集中研究图片描述翻译的模态适应性,具体内容包括以下三个方面:(1)融合图片主题信息的翻译模型优化方法通用领域翻译模型不能准确进行歧义词翻译,针对该问题,提出一种基于图片主题信息优化翻译模型方法。该方法旨在从大规模图片-文档对应的语料中挖掘相似于图片内容的文档集合,借以分析图片的主题信息,进而将图片主题信息融入统计机器翻译系统中的翻译模型,这一过程有助于加强翻译系统的领域自适应能力,提高系统的性能。实验结果表明,相比较于基准系统,这一方法在测试集上提高0.74个百分点。(2)图片描述翻译中面向主题优化的关联语句抽取方法针对图片主...
【文章来源】:苏州大学江苏省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图2-1统计机器翻译流程图??
24'25]等人分别实??现了相应的完全基于神经网络的机器翻译模型。这些均属于经典的神经机器翻译模??型,本质上是序列到序列的模型,不仅可以用于机器翻译,还可以用于其他序列任??务,比如:问答、摘要生成等。神经机器翻译采用连续空间表示词语、短语以及句??子。在翻译建模过程中,完全采用神经网络进行源端句子到目标端句子的映射。目??前,fc流的神经机器翻译系统主要有Google提出的端到端模型%以及蒙特利尔人学??提出的编码器-解码器模型|231。本文主要基f编码器-解码器模型进行实验,图2-2展??示,编码器-解码器模型的基本框架图:??moi?suis?etudiant?〈/s〉??etudiant?^?^????0??1?0??1?0.2?j?I?0.?6??Je?0.3?|?0.?1?0.?1?丨丨?0.?1??Moi?〇.l?0.1?i?0.1??suis?々;丨丨0+6h?4丨々:??H?11?4?il?1??Hi:?I??“?a?ii?“??I?am?a?student?<s>?moi?suis?etudiant??图2-2编码器-解码器模型基本框架图??编码器_解码器模型主要里包含三部分:词嵌入层、编码层以及解码层。如图2-??2所示,“/麵<7?.vmdC表示源端句子,它上面两层实线框分别表不源端词嵌入以及??编码层;“<s>所仍則以—广表不目标端句子,它上面两层实线框分别表亦目标??端词嵌入以及解码层。其中,编码器或者解码器可以由循环神经网络[27】(Recrnrem??11??
的翻译模型优化方法?面向图片描述翻译的模态适应性研究??r???,??!?t/阁片描述+: ̄7?? ̄题分布?/?!??I?I??I???I??!?/短语对在描 ̄7????!?/?述中的出现?A-^j?-短语翻译模型??|/?次^?/?!???:=[=::??!?|短语对在^个七题|?!??|?下的翻译分布?|??!?L ̄, ̄?!??■?1????!?y阁片描述+:—7紳3丨+:题'巧翻叫??;7?题分布/??I?I??图3-1融合图片主题信息的图片描述翻译框架图??题信息的短语特征包含三种,分别是主题相关的正向翻译概率(Topic-Based?Positive??Translation?Probability,简写为TB-PTP)、主题相关的反向翻译概率(Topic-Based??Negative?Translation?Probability,简写为TB-NTP)以及主题敏感度(Topic?Sensitivity,??简写为TS)。其中,TB-PTP和TB-NTP通过主题信息对传统的正向以及反向翻译概率??(即PTP和NTP)进行改进。此外,TS也是一种结合主题信息的翻译特征,其对翻译??消歧的贡献W己经获得验证。??表3-1传统短语特征??PTP? ̄NTP ̄LPTPLNTP??-8.95893 ̄ ̄-2.88915-2.07944 ̄ ̄0.108832??表3-2融入主题信息的短语特征??TB-PTP?TB-NTP?TS??0.0001224?0.1119543?3.3023679??我们借助表3-1和表3-2,对传统的短语特征和基
本文编号:3253751
【文章来源】:苏州大学江苏省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图2-1统计机器翻译流程图??
24'25]等人分别实??现了相应的完全基于神经网络的机器翻译模型。这些均属于经典的神经机器翻译模??型,本质上是序列到序列的模型,不仅可以用于机器翻译,还可以用于其他序列任??务,比如:问答、摘要生成等。神经机器翻译采用连续空间表示词语、短语以及句??子。在翻译建模过程中,完全采用神经网络进行源端句子到目标端句子的映射。目??前,fc流的神经机器翻译系统主要有Google提出的端到端模型%以及蒙特利尔人学??提出的编码器-解码器模型|231。本文主要基f编码器-解码器模型进行实验,图2-2展??示,编码器-解码器模型的基本框架图:??moi?suis?etudiant?〈/s〉??etudiant?^?^????0??1?0??1?0.2?j?I?0.?6??Je?0.3?|?0.?1?0.?1?丨丨?0.?1??Moi?〇.l?0.1?i?0.1??suis?々;丨丨0+6h?4丨々:??H?11?4?il?1??Hi:?I??“?a?ii?“??I?am?a?student?<s>?moi?suis?etudiant??图2-2编码器-解码器模型基本框架图??编码器_解码器模型主要里包含三部分:词嵌入层、编码层以及解码层。如图2-??2所示,“/麵<7?.vmdC表示源端句子,它上面两层实线框分别表不源端词嵌入以及??编码层;“<s>所仍則以—广表不目标端句子,它上面两层实线框分别表亦目标??端词嵌入以及解码层。其中,编码器或者解码器可以由循环神经网络[27】(Recrnrem??11??
的翻译模型优化方法?面向图片描述翻译的模态适应性研究??r???,??!?t/阁片描述+: ̄7?? ̄题分布?/?!??I?I??I???I??!?/短语对在描 ̄7????!?/?述中的出现?A-^j?-短语翻译模型??|/?次^?/?!???:=[=::??!?|短语对在^个七题|?!??|?下的翻译分布?|??!?L ̄, ̄?!??■?1????!?y阁片描述+:—7紳3丨+:题'巧翻叫??;7?题分布/??I?I??图3-1融合图片主题信息的图片描述翻译框架图??题信息的短语特征包含三种,分别是主题相关的正向翻译概率(Topic-Based?Positive??Translation?Probability,简写为TB-PTP)、主题相关的反向翻译概率(Topic-Based??Negative?Translation?Probability,简写为TB-NTP)以及主题敏感度(Topic?Sensitivity,??简写为TS)。其中,TB-PTP和TB-NTP通过主题信息对传统的正向以及反向翻译概率??(即PTP和NTP)进行改进。此外,TS也是一种结合主题信息的翻译特征,其对翻译??消歧的贡献W己经获得验证。??表3-1传统短语特征??PTP? ̄NTP ̄LPTPLNTP??-8.95893 ̄ ̄-2.88915-2.07944 ̄ ̄0.108832??表3-2融入主题信息的短语特征??TB-PTP?TB-NTP?TS??0.0001224?0.1119543?3.3023679??我们借助表3-1和表3-2,对传统的短语特征和基
本文编号:3253751
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3253751.html
最近更新
教材专著