基于语言特性的汉—越短语机器翻译方法研究
本文关键词:基于语言特性的汉—越短语机器翻译方法研究
更多相关文章: 统计机器翻译 汉语-越南语 语言特性 短语抽取 词汇化调序
【摘要】:机器翻译在不同语种之间的交流中起着非常重要的作用,一直是自然语言处理研究的热点和难点。越南是中国西南的重要邻国之一,研究汉语-越南语统计机器翻译对汉越双语理解、舆情分析、信息检索、文化交流、经济贸易等具有重要的支撑作用。目前,汉-越统计机器翻译研究的工作主要集中在汉越双语资源库建设、汉越词对齐研究等方面,翻译研究尚处于起步阶段。越南语和汉语在语言特征上的差异性很大,最显著的不同点在于,越南语中修饰语(定语和状语)和被修饰语的位置与汉语成镜像关系,即越南语中的形容词位于其修饰的名词之后,副词位于其修饰的形容词和动词之后,而汉语中的正好相反。因此,越南语和汉语在语序上有明显不同,而且这些不同点具有一定的规律:越南语中修饰语与被修饰语的位置与汉语中相反;修饰语与被修饰语连续出现。基于以上分析,从基于短语的统计机器翻译模型和融合语言特性的短语翻译模型两个方面来研究汉-越机器翻译。(1)基于短语的汉-越统计机器翻译方法。首先,分别使用斯坦福中文分词工具和实验室自主开发的越南语分词工具对汉语和越南语双语平行句对进行分词,使用GIZA++工具获取双语平行句对的词对齐结果。然后通过汉-越短语对抽取得到短语翻译概率表,并用短语翻译概率表训练翻译模型。使用CKY解码器进行解码,解码过程中使用词汇化调序模型(MSD)进行短语重排序。在实验中,观察基于短语的汉-越统计机器翻译系统在不同文法(N-gram)中的翻译性能。实验结果表明,翻译系统在二元文法和三元文法具有较好的性能。(2)融合语言特性的汉-越短语统计机器翻译方法。针对越南语典型的修饰语后置的特点,提出一种融合语言后置特征函数的汉语-越南语统计机器翻译方法。该方法首先分析汉语与越南语语法不同,提取越南语在定语位置、状语位置及修饰词词语顺序上与汉语的差异,然后利用这些差异定义词法差异的调序块。在解码过程中,通过改进的解码算法将汉语中的调序块映射到越南语中,记录解码产生的N-best候选翻译及其相应的得分P,再用语言后置特性调序算法对N-best候选翻译中的调序块进行优化调序,并且用无条件最大似然概率分布估计调序后的得分D。综合考虑得分P和得分D选取最终的目标句子。实验以融合词汇化调序模型(MSD)的汉-越短语统计翻译方法作为对比实验。实验结果表明,融合语言后置特性的汉语-越南语短语的机器翻译方法能够有效的提高翻译的准确率。(3)融合语言特性的汉-越于短语统计机器翻译原型系统。在基于短语汉-越统计机器翻译系统的,将汉语和越南语的语言特性作为特征融入翻译的解码过程中,使用现有的一些基础开源工具(分词工具、词对齐工具等),以Java web的开发方式,构建了融合语言特性的汉-越于短语统计机器翻译原型系统。
【关键词】:统计机器翻译 汉语-越南语 语言特性 短语抽取 词汇化调序
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:H085
【目录】:
- 摘要3-5
- ABSTRACT5-12
- 第一章 绪论12-18
- 1.1 研究背景及意义12-14
- 1.2 国内外研究现状14-16
- 1.3 论文的研究内容16-17
- 1.4 论文的组织17-18
- 第二章 统计机器翻译方法介绍18-29
- 2.1 引言18
- 2.2 基于词的统计机器翻译方法18-20
- 2.3 基于短语的统计机器翻译方法20-22
- 2.4 基于句法的统计机器翻译方法22-27
- 2.4.1 基于形式化句法的统计机器翻译方法22-24
- 2.4.2 基于语言学句法的统计机器翻译方法24-27
- 2.5 翻译模型框架和常用特征函数27
- 2.5.1 对数线性模型27
- 2.5.2 特征函数27
- 2.6 机器翻译评测方法27-28
- 2.6.1 人工评测27-28
- 2.6.2 基于BLEU值的自动评测方法28
- 2.7 本章小结28-29
- 第三章 基于短语的汉越统计机器翻译29-38
- 3.1 引言29
- 3.2 基于短语的统计机器翻译模型29-30
- 3.3 基于短语的汉-越统计机器翻译方法30-33
- 3.3.1 短语抽取30-31
- 3.3.2 短语翻译概率估计31-32
- 3.3.3 重排序32-33
- 3.4 解码33-35
- 3.4.1 CKY解码算法33-35
- 3.4.2 剪枝策略35
- 3.5 实验35-37
- 3.5.1 实验数据35-36
- 3.5.2 实验设计及结果分析36-37
- 3.6 本章小结37-38
- 第四章 融合语言特性的汉-越短语机器翻译方法38-46
- 4.1 引言38
- 4.2 越南语的语言特点38-39
- 4.3 语言特征调序块的识别方法39-41
- 4.4 基于调序块的汉-越短语机器翻译方法41-44
- 4.4.1 基于短语的统计机器翻译41
- 4.4.2 解码41-43
- 4.4.3 剪枝策略43-44
- 4.5 实验44-45
- 4.5.1 实验数据44
- 4.5.2 实验设计及结果分析44-45
- 4.6 本章小结45-46
- 第五章 融合语言特性的汉-越短语机器翻译原型系统46-48
- 5.1 系统背景46
- 5.2 系统开发所需工具及资源46-47
- 5.2.1 基础开源工具46
- 5.2.2 语料46-47
- 5.3 系统实现47
- 5.4 本章小结47-48
- 第六章 总结与展望48-50
- 6.1 总结48
- 6.2 展望48-50
- 致谢50-51
- 参考文献51-56
- 附录A 攻读硕士学位期间发表的论文56-57
- 附录B 攻读硕士学位期间的软件著作权57-58
- 附录C 攻读硕士期间论文项目基金及参与项目58
【相似文献】
中国期刊全文数据库 前10条
1 石宝洁;;越南语专业本科人才培养模式的新探索[J];广东外语外贸大学学报;2007年05期
2 李太生;;现代越南语新词发展趋势及其越汉翻译探讨[J];东南亚纵横;2008年05期
3 赖艳凌;刘志强;;中国越南语翻译、专业的历史与现状[J];广西民族大学学报(哲学社会科学版);2008年S1期
4 邓薪静;;对高职越南语教育的一些思考[J];中小企业管理与科技(下旬刊);2010年08期
5 农斯淇;;浅谈高职院校越南语听力教学[J];广西政法管理干部学院学报;2011年05期
6 黄丽华;;浅谈越南语语言学习能力的培养[J];科技信息;2011年23期
7 阳琦兰;;越南语单词的记忆技巧探究[J];才智;2012年01期
8 陈继华;;浅谈越南语教学中的缩略语[J];东南亚纵横;2012年07期
9 黄铮;;旅游越南语课程教学的思考[J];科技信息;2012年36期
10 陈碧兰;阮金燕;;论语言与文化在越南语教学中的运用[J];教育教学论坛;2013年26期
中国重要会议论文全文数据库 前3条
1 张海云;张超静;毕玉德;;越南语文献中字母缩略语自动提取研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 武氏惠;;浅谈汉语多音字对越南语翻译的影响——以“单”字为例[A];学行堂文史集刊——2013年第2期[C];2013年
3 林丽;毕玉德;;越南语给予类动词的语义结构和层级分类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前10条
1 实习生 黄一婧 记者 周仕兴;全国越南语口语大赛在邕举行[N];广西日报;2005年
2 陆勇;崇左打响越南语人才跨国劳务品牌[N];中国劳动保障报;2008年
3 本报记者 曹植勤 实习生 侯少华 邓芳;越南语里的中国文化[N];南宁日报;2008年
4 唐光福;加强技能培训 提升业务能力[N];边防警察报;2010年
5 记者 郑雅邋实习生 刘小灵 袁晶;把中越语言文化研究向前推进[N];南宁日报;2007年
6 本报记者 伍建青;教育交流浇灌友谊之花[N];广西日报;2010年
7 黄志辉 班绍长;一口流利越南语 边贸派上大用场[N];中国劳动保障报;2013年
8 周汉青 本报记者 陈典宏;中士伍新海边境线上的“金牌翻译”[N];解放军报;2010年
9 谢莉丽;越南语毕业生火爆东盟[N];广西日报;2004年
10 通讯员 海仁;海南特招俄语和越南语专业公务员[N];中国人事报;2008年
中国博士学位论文全文数据库 前5条
1 武忠定;越南语核心词研究[D];华中科技大学;2012年
2 阮氏玉华;越南语佛教词语研究[D];华中科技大学;2011年
3 阮氏玉华;越南语佛教词语研究[D];华中科技大学;2011年
4 阮大瞿越(Nguy(?)n (?)i C(?) Vi(?)t;十七世纪越南汉字音(A类)研究[D];北京大学;2011年
5 阮氏黎心;汉越人体名词隐喻对比研究[D];华东师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 阮武琼芳;汉越词及汉越音在新时期越南语中的实践价值[D];首都师范大学;2007年
2 徐淑媛;越南语问候语研究[D];广西民族大学;2015年
3 莫媛媛;汉越双语词语对齐方法研究[D];昆明理工大学;2015年
4 利春明;现代汉语“上”和越南语TR(?)N、L(?)N的对比考察[D];浙江大学;2014年
5 吕昌涛;基于语言特性的汉—越短语机器翻译方法研究[D];昆明理工大学;2016年
6 杨启悦;汉越新闻观点句抽取与聚类方法研究[D];昆明理工大学;2016年
7 籁素娥;汉越双重否定式对比研究[D];云南大学;2016年
8 李斱;越南语旅游领域问句语音识别方法的研究[D];昆明理工大学;2016年
9 李发杰;越南语依存树库构建以及依存关系分析方法研究[D];昆明理工大学;2016年
10 熊明明;越南语词法分析方法研究[D];昆明理工大学;2016年
,本文编号:695325
本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/695325.html