融合主题的汉越冶金领域统计机器翻译方法
【图文】:
)×p(z=k|D')(5)在翻译一个术语时,本文通过计算在文档D'下术语f^到e^的条件概率,来帮助解码器选择符合领域的术语翻译。3翻译模型的融合为充分利用特定领域翻译知识,本文在将融入主题信息的翻译模型融合到机器翻译系统的同时,也将冶金领域语料训练的翻译模型线性融合到翻译系统中,进一步提升基准翻译模型的冶金领域适应能力。本文利用对数线性模型[11]将这2个模型作为2个特征融合到汉越基于短语的翻译模型中[12],这样不会影响集成本身其他特征的计算。对于解码过程,本文设计思路框架如图1所示,图中显示了融合了冶金领域语料训练的翻译模型和融合主题信息的翻译模型的统计机器翻译的整个过程。图1融合翻译模型的汉越机器翻译系统流程基于短语的翻译模型对数线性表示可以用式(6)表示。P(e|f)=exp[λ鐖lb鐖(f|e)+λdlbd(a,b)+λLMlbplm(e)](6)其中:lb鐖(f|e)是翻译模型;lbd(a,b)是调序模型;lbplm(e)是语言模型。这些特征函数不同的权重,影响着翻译的质量。将上文提到的2个模型作为特征函数融合到这个短语翻译系统中,融合后的对数线性表示为式(7)。P(e|f)=exp[λ鐖lb鐖(e|f)+λdlbd(a,b)+λLMlbplm(e)+λmetallurgylb(metallurgy)+λtermlb(term)]λ鐖+λmetallurgy=1(7)其中:λmetallurgy和λterm分别是冶金领域语料训练的翻译模型和融合主题信息的术语翻译模型的权重[13];λ鐖为通用领域翻译模型的权重,本文令通用领域翻译模型与冶金领域翻译模型的权重之和为1,然后通过最小错误率训练方法来调优[14]这些参数,使得翻译结果取得最优(根据翻译评测目标评价该结果译文)。在解码阶段,搜索选择概率最
第43卷第12期周珂,余正涛,高盛祥:融合主题的汉越冶金领域统计机器翻译方法外,分析发现,加大冶金领域翻译模型权重未必会提升测试集的翻译质量,这是因为特定领域翻译模型往往缺乏充足的训练语料,翻译模型训练过程会遇到数据稀疏问题,由此导致冶金领域翻译知识不准确,最终降低系统翻译性能。图2不同权重下的系统翻译性能5结束语本文提出融合主题的汉越统计机器翻译方法,构建术语翻译模型和联合翻译模型。术语翻译模型是利用术语与主题的分布关系来约束术语的选择,而联合模型可以有效地调整基准翻译模型知识分布,进而在翻译过程中最大程度利用领域翻译知识。本文将这2个模型融合到基准翻译系统中,实验结果表明,相比改进前的翻译模型,利用该模型进行冶金领域文本翻译时在BLEU-4和准确度方面都有较大提升。下一步将扩大语料库规模,并对冶金领域的特征做深入分析。参考文献[1]张军.我国西南地区在“一带一路”开放战略中的优势及定位[J].经济纵横,2014(11):93-96.[2]刘群.统计机器翻译综述[J].中文信息学报,2003,17(4):1-12.[3]KOEHNP,OCHFJ,MARCUD.StatisticalPhrase-basedTranslation[C]//ProceedingsofConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguisticsonHumanLanguageTechnology.Michigan,USA:AssociationforComputationalLinguistics,2003:127-133.[4]YAMADAK.ASyntax-basedTranslationModel[C]//ProceedingsofMeetingoftheAssociationforComputationalLinguistics.Michigan,USA:AssociationforComputationalLinguistics,2002:1-5.[5]张冬梅,刘小蝶,晋耀红.基于模板的汉英专利机器翻译研究[J].计算机应用研究,,2013,30(7):204
【作者单位】: 昆明理工大学信息工程与自动化学院;
【基金】:国家自然科学基金(61672271,61761026,61732005) 昆明理工大学校人才培养项目(省级)(KKSY201703005)
【分类号】:TP391.2
【相似文献】
相关期刊论文 前10条
1 徐波;史晓东;刘群;宗成庆;庞薇;陈振标;杨振东;魏玮;杜金华;陈毅东;刘洋;熊德意;侯宏旭;何中军;;2005统计机器翻译研讨班研究报告[J];中文信息学报;2006年05期
2 王正;孙东云;;统计机器翻译系统在网络翻译教学中的应用[J];英语研究;2008年01期
3 张涛;;机器翻译的发展与基于短语的统计机器翻译[J];山西广播电视大学学报;2009年04期
4 肖桐;李天宁;陈如山;朱靖波;王会珍;;面向统计机器翻译的重对齐方法研究[J];中文信息学报;2010年01期
5 刘群;统计机器翻译综述[J];中文信息学报;2003年04期
6 何中军;刘群;林守勋;;统计机器翻译中短语切分的新方法[J];中文信息学报;2007年01期
7 苗洪霞;蔡东风;宋彦;;基于短语的统计机器翻译方法[J];沈阳航空工业学院学报;2007年02期
8 罗毅;李淼;张建;;一种基于短语统计机器翻译的高效柱搜索解码器[J];计算机应用;2007年08期
9 罗毅;李淼;朱鉴;胡冠龙;;基于短语统计机器翻译解码算法的研究与实现[J];计算机工程与应用;2007年30期
10 李枫;;基于短语的统计机器翻译[J];山西财经大学学报;2008年S1期
相关会议论文 前10条
1 肖桐;李天宁;陈如山;朱靖波;王会珍;;面向统计机器翻译的重对齐方法研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 张春越;蒋宏飞;赵铁军;;基于词语对齐融合提高统计机器翻译质量[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
3 万升华;杨沐昀;李生;赵铁军;;基于字词混合翻译短语的统计机器翻译[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 马永亮;赵铁军;;统计机器翻译中多分词结果的融合[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 张步峰;何丕廉;张冬冬;李沐;周明;;短语切分概率在统计机器翻译系统中的应用[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 付雷;吕雅娟;刘群;;基于句型模板和统计机器翻译技术的翻译方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 杜金华;王莎;;西安理工大学统计机器翻译系统技术报告(英文)[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
8 于惠;谢军;熊皓;吕雅娟;刘群;林守勋;;基于篇章上下文的统计机器翻译方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
9 曹杰;任志祥;吕雅娟;刘群;;统计机器翻译系统中传统词典的应用研究[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
10 梁芳丽;李淼;李文;陈雷;乌达巴拉;;统计机器翻译中的源语言重排序方法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关重要报纸文章 前3条
1 何中军邋米海涛 刘群;统计机器翻译系统中的开源软件[N];计算机世界;2007年
2 中科院计算技术研究所 吕雅娟邋付雷 黄瑾 何中军 刘群;化繁为简的统计机器翻译技术[N];中国计算机报;2007年
3 吕雅娟邋付雷 黄瑾 何中军 刘群;能自动翻译专利文献的翻译系统[N];计算机世界;2007年
相关博士学位论文 前10条
1 崔磊;统计机器翻译领域自适应的研究[D];哈尔滨工业大学;2014年
2 杨振新;面向受限领域的汉蒙统计机器翻译方法研究[D];中国科学技术大学;2017年
3 蒋宏飞;基于同步树替换文法的统计机器翻译方法研究[D];哈尔滨工业大学;2010年
4 黄书剑;统计机器翻译中的词对齐研究[D];南京大学;2012年
5 刘乐茂;统计机器翻译判别式训练方法研究[D];哈尔滨工业大学;2013年
6 贡正仙;文档级统计机器翻译的研究[D];苏州大学;2014年
7 薛永增;统计机器翻译若干关键技术研究[D];哈尔滨工业大学;2007年
8 梁华参;基于短语的统计机器翻译模型训练中若干关键问题的研究[D];哈尔滨工业大学;2013年
9 肖桐;树到树统计机器翻译优化学习及解码方法研究[D];东北大学;2012年
10 段楠;统计机器翻译的一致性解码方法研究[D];天津大学;2012年
相关硕士学位论文 前10条
1 程立;融合主题的汉语—纳西的统计机器翻译方法研究[D];昆明理工大学;2015年
2 刘乐;统计机器翻译领域适应性研究[D];苏州大学;2015年
3 玉霞;蒙古文词法分析及其在蒙汉统计机器翻译中的应用[D];内蒙古师范大学;2015年
4 孙辉丰;层次短语翻译模型中翻译规则约束问题的研究[D];南京大学;2015年
5 李强;短语统计机器翻译关键技术研究[D];东北大学;2013年
6 王超超;基于分布式合成语义的统计翻译模型研究[D];苏州大学;2016年
7 刘昊;统计机器翻译领域自适应方法研究[D];苏州大学;2016年
8 李婧萱;基于深度神经网络的统计机器翻译模型研究[D];哈尔滨工业大学;2016年
9 应志野;基于最大熵的机器翻译研究与实现[D];电子科技大学;2016年
10 文佳胜;基于机器学习的少数民族语言翻译关键技术研究与实现[D];电子科技大学;2016年
本文编号:2529296
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2529296.html