汉维辅助翻译系统中结合词向量的句子相似度计算方法研究
本文关键词:汉维辅助翻译系统中结合词向量的句子相似度计算方法研究
更多相关文章: 汉维 辅助翻译系统 混合策略 词向量 句子相似度计算
【摘要】:新疆维吾尔自治区作为丝绸之路经济带核心区,随着“丝绸之路经济带”战略构想的逐步实施,解决不同民族之间的语言畅通成为当务之急。国外机器翻译技术从二十世纪八十年代开始蓬勃发展。随着改革开放以来各项良好宽松的政策国内机器翻译技术也取得显著成就。然而,到目前为止,少数民族语的机器翻译仍处于初期发展阶段,为了进一步提高少数民族语言机器翻译技术的水平,实现各民族群众之间的友好交流与社会的和谐发展,新疆多语种信息技术重点实验室与中科院计算所合作开发的Tilmach辅助翻译系统是具有开创性的少数民族语言的计算机辅助翻译系统,该系统终于面向社会发布并免费使用,并已得到社会各界的认可,对新疆少数民族群众的生活学习提供切实的帮助。辅助翻译系统中主要存在的问题是,相似度计算方法存在很大的局限性,并精度较低。尤其在实际的工程应用上,以往的采用基于词汇的相似度计算方法进行计算的,这在一定程度上限制了翻译记忆库能够发挥的作用。本文将词向量技术引入到句子的相似度计算中,因为词向量的语境相似度在很大程度上增加了句子相似度计算的深度和广度,并且其优秀的语义相关性也可以将同、近义词的使用纳入到相似度考虑的范畴。本文的主要工作包括以下几个部分。一是使用新疆多语种信息技术重点实验室搜集的汉维双语语料库,采用谷歌公司的Word2vec在不同规模语料库、模型、策略、词向量维度、窗口大小分别训练词向量构建汉语和维语词典。二是在基于语义词典的句子相似度计算方法的基础上引入词向量的概念,提出了基于词向量的维吾尔语句子相似度计算方法,汉语句子相似度计算方法则是借鉴维吾尔语的思路;使用上述词典采用两种测试标准进行实验,又与传统句子相似度计算方法进行对比实验,均验证了该方法的有效性,最后接口的形式将句子相似度计算方法封装到Tilmach系统。三是对于本文的句子相似度计算方法进行人工评测,评测结果显示本文的方法与人工评测比较接近。四是混合策略的辅助翻译技术可以扬长避短,协调不同翻译策略,融合多种翻译方法,从而进一步提升翻译准确率。下一步的工作是考虑进一步扩展汉语和维语的训练语料,或者改用卷积神经网络等深度神经网络训练词向量,系统的翻译技术结合神经网络技术提高翻译准确率。
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.2
【参考文献】
中国期刊全文数据库 前10条
1 孙战彪;张红军;;基于语义相似度的共词分析方法研究[J];图书馆学刊;2017年01期
2 廉勇;;计算机辅助翻译技术的发展趋势与展望[J];山西青年;2017年02期
3 刘春丽;李晓戈;刘睿;范贤;杜丽萍;;基于表示学习的中文分词[J];计算机应用;2016年10期
4 郭胜国;邢丹丹;;基于词向量的句子相似度计算及其应用研究[J];现代电子技术;2016年13期
5 梁喜涛;顾磊;;中文分词与词性标注研究[J];计算机技术与发展;2015年02期
6 易礼燕;;计算机辅助翻译软件[J];计算机光盘软件与应用;2014年09期
7 卡哈尔江·阿比的热西提;吐尔根·依布拉音;姚天f ;艾山·吾买尔;艾山·毛力尼亚孜;;一种改进的维吾尔语句子相似度计算方法[J];中文信息学报;2011年04期
8 董兴华;周俊林;郭树盛;吐尔洪·吾司曼;;基于短语的汉维/维汉统计机器翻译[J];计算机工程;2011年09期
9 田生伟;吐尔根·依布拉音;禹龙;买合木提·木合买提;艾山·吾买尔;;一种维吾尔语句子相似度算法的研究[J];计算机工程与应用;2009年26期
10 陈谊;范姣莲;;计算机辅助翻译——新世纪翻译的趋势[J];中国现代教育装备;2008年12期
中国硕士学位论文全文数据库 前4条
1 刘敏;基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用[D];北京理工大学;2015年
2 江大鹏;基于词向量的短文本分类方法研究[D];浙江大学;2015年
3 周云;CAT实践中的人工干预[D];上海师范大学;2013年
4 卡哈尔江·阿比的热西提;基于实例的汉维—维汉双向机器翻译系统的研究[D];上海交通大学;2012年
,本文编号:1280279
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1280279.html