英汉机器翻译中的长句切分处理问题研究
本文关键词:英汉机器翻译中的长句切分处理问题研究,,由笔耕文化传播整理发布。
【摘要】:机器翻译一直是自然语言处理领域的重要研究方向之一。机器翻译诞生于大约半个世纪以前。虽然历经了半个多世纪的发展,但目前机器翻译的译文质量仍然不能令人满意,尤其是在长句的翻译上,由于句子长度过长、句子成分复杂,译文质量往往会比普通句子的译文差得多。如何针对长句做适当的预处理,已经成为近年来机器翻译研究者研究的热点问题。本文针对英汉机器翻译的长句预处理问题,主要探究如何对英文长句做适当的切分处理,通过把长句切分为若干短句的方式,提升机器翻译的译文质量。本文首先对英语长句做了详尽的分析,对英文长句的特点及给机器翻译系统翻译带来的困难等问题做了探讨,给出了针对本文工作的长句的定量化定义,并且分析了汉语与英语在长句使用上的不同。在以上分析的基础上,针对现有的长句切分方法难以处理含标点符号少的长句这一问题,本文的主要思路是,借助在句中适当位置添加逗号的方法切分句子。随后,本文提出了一种基于多策略的英文长句切分方法。该方法主要包括两个模块,一是基于依存句法的规则匹配切分方法,二是基于条件随机场(CRF)序列标注的切分方法。基于规则匹配的切分方法主要使用句子的依存句法树来识别句中的某些成分。该方法主要用于识别和处理句中较为明确、易于识别某些句子成分,并在这些句子成分的边界添加逗号、切分句子。基于序列标注的切分方法主要把“寻找句中合适的逗号位置”这一问题转化成一个序列标注任务,使用CRF对句中的逗号位置进行建模,估计这些逗号在句中不同位置出现的概率,对句中合适的逗号位置进行标记。该方法主要针对难以使用规则识别、变化较多的现象和成分。以上两个模块主要采取平行处理的方式进行集成,即二者分别对长句进行切分处理,得到两组逗号添加位置,最后合并结果,在这些位置切分位置。两个模块相互补充,共同完成对长句的切分。本文最后设计了两组实验,从不同的角度对本方法的有效性进行验证。第一组实验是针对句子切分的有效性与合理性,第二组实验针对本文方法对于机器翻译译文质量的影响。
【关键词】:机器翻译 长句切分 预处理 条件随机场 CRF
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.2
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第1章 绪论10-14
- 1.1 课题背景及研究意义11-12
- 1.2 本文主要工作12-13
- 1.3 本文组织结构13-14
- 第2章 机器翻译概述及相关研究现状14-21
- 2.1 概述14
- 2.2 机器翻译主要方法概述14-16
- 2.2.1 基于规则的机器翻译14-15
- 2.2.2 基于统计的机器翻译15-16
- 2.3 长句切分处理现有工作16-20
- 2.3.1 基于规则的处理方法17-18
- 2.3.2 基于统计的长句分割处理方法18
- 2.3.3 基于翻译的长句处理方法18-20
- 2.4 本章小结20-21
- 第3章 多策略英文长句切分处理方法21-37
- 3.1 概述21
- 3.2 针对英文长句的分析21-25
- 3.2.1 英文长句对机器翻译质量的影响21-23
- 3.2.2 汉语与英语在使用长句策略上的区别分析23-25
- 3.3 基于依存句法的规则匹配切分方法25-31
- 3.3.1 依存句法概述25-26
- 3.3.2 规则匹配切分法适用的句子成分26-28
- 3.3.3 规则匹配切分方法28-31
- 3.4 基于CRF序列标注的切分处理方法31-35
- 3.4.1 条件随机场(CRF)概述31-33
- 3.4.2 基于CRF序列标注的切分方法33-35
- 3.5 本章小结35-37
- 第4章 多策略长句切分方法的实验37-48
- 4.1 概述37
- 4.2 原型系统的架构设计37-40
- 4.2.1 两种切分方法的集成方式37-38
- 4.2.2 条件随机场模型的训练38-40
- 4.3 句子切分实验40-43
- 4.3.1 句子切分方面的有效性和合理性40-42
- 4.3.2 训练集规模对性能的影响42-43
- 4.4 机器翻译预处理实验43-46
- 4.4.1 实验设置43-44
- 4.4.2 实验结果与分析44-46
- 4.5 本章小结46-48
- 第5章 总结与展望48-50
- 5.1 本文工作总结48-49
- 5.2 未来工作展望49-50
- 参考文献50-54
- 攻读硕士学位期间发表的论文54-55
- 致谢55
【相似文献】
中国期刊全文数据库 前10条
1 金锡谟;;漫谈长句运用中的弊病(三)[J];新闻与写作;1989年08期
2 施济博;;“马拉松”式的长句[J];新闻业务;1963年02期
3 王海泉;;广播语言要变长句为短句[J];新闻记者;1986年02期
4 张蝶娜;;公安文书长句运用[J];政法学刊;1988年02期
5 金笙;;漫话长句[J];新闻界;1989年03期
6 金锡谟;;漫谈长句运用中的弊病(一)[J];新闻与写作;1989年06期
7 金锡谟;忌艰涩 求畅达(下)──文风杂谈之五[J];新闻与写作;1999年06期
8 白如江;杨振瑜;王效岳;;基于KeyGraph关键词抽取的长句查询扩展技术研究[J];情报理论与实践;2014年06期
9 张秋菊;德语科技文献中被动语态和长句的翻译技巧[J];科技情报开发与经济;2002年04期
10 蒋晓红;;把句子写短些[J];新闻战线;1984年10期
中国重要会议论文全文数据库 前2条
1 杨丽达;;《大学英语》课文中的长句翻译[A];贵州省翻译工作者协会2005年会暨学术交流会论文集[C];2005年
2 贺f ;李久进;;要处理好科技语体中长句与短句的关系[A];庆祝中华人民共和国成立50周年编辑学论文集[C];1999年
中国重要报纸全文数据库 前2条
1 肥城市实验中学 李海滨;认清规律,注重方法,巧解阅读[N];学知报;2011年
2 孟州五中 张淑英;英语阅读能力提高初探[N];学知报;2011年
中国硕士学位论文全文数据库 前10条
1 张金宁;韩译中长句翻译方法研究[D];烟台大学;2013年
2 孙娟;以交际为目标:长句翻译探讨[D];兰州大学;2015年
3 郑丽丽;《日本的职业教育—基于比较与过渡视点的职业教育学》(第五、六章)翻译实践报告[D];曲阜师范大学;2015年
4 秦嘉艺;海上事故调查报告中长句翻译的实践报告[D];大连海事大学;2015年
5 杜培艳;《失去发言权的人》英译汉翻译实践报告—英文长句的翻译与信息表达[D];新疆师范大学;2015年
6 王慧荣;简析日语长句翻译方法[D];山西大学;2015年
7 李亚湘;长句的翻译[D];广东外语外贸大学;2015年
8 刘君君;英译汉中长句的翻译策略[D];山西大学;2015年
9 邢岚;关于长句的翻译技巧[D];哈尔滨师范大学;2015年
10 任瑶瑶;日语长句的汉译技巧探索[D];吉林大学;2015年
本文关键词:英汉机器翻译中的长句切分处理问题研究,由笔耕文化传播整理发布。
本文编号:389578
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/389578.html