汉—维时间数字和量词的识别与翻译研究
本文选题:时间数字 切入点:无歧义量词 出处:《新疆大学》2017年硕士论文
【摘要】:随着机器翻译技术的迅速发展,命名实体识别与翻译研究取得了突破性的进展,它是在自然语言处理中的关键性研究分支。如今,汉语-维吾尔语机器翻译领域中开展了大量的研究工作。本文提出了基于规则与模板的时间、数字、无歧义量词、有歧义量词的翻译方法及基于神经网络的有歧义量词翻译方法。本文主要研究以下三个方面的工作:(1)根据汉语-维吾尔语的翻译需求和维吾尔语的语法结构,首先收集与挖掘大量的汉语时间表达式、数字的分类(基数、约数、集合数、分数、倍数),然后分别构建双语规则库和翻译模板,识别汉语时间表达式或数字并找出它相应的规则模板,输出时间表达式或数字对应的维吾尔语翻译结果。(2)对于量词进行分析与归类,将量词分为有歧义量词与无歧义量词,无歧义量词分为四种情况(数字一一对应,量词丢失;数字一一对应,量词一一对应;数字丢失,量词一一对应;数字量词均丢失;),对有歧义量词根据上下文名词的不同,量词对应的翻译结果也有所不同,通过上述的分类方法收集量词短语并分别增加规则库。(3)基于Seq2Seq模型实现有歧义量词短语的神经机器翻译并有效提高了汉语-维吾尔语量词的翻译准确率。为了提高汉维机器翻译系统对时间、数字和量词短语的翻译性能,本文利用双语语料库提取汉语时间、数字和量词短语,实现了基于规则与模板、神经网络的的翻译方法。
[Abstract]:With the rapid development of machine translation technology, the research of named entity recognition and translation has made a breakthrough. It is a key research branch in natural language processing. A great deal of research has been done in the field of Chinese-Uygur machine translation. In this paper, time, numbers, unambiguous quantifiers based on rules and templates are proposed. The translation method of ambiguous quantifier and the translation method of ambiguous quantifier based on neural network. This paper mainly studies the following three aspects of work: 1) according to the translation needs of Chinese-Uygur language and the grammatical structure of Uygur language, Firstly, a large number of Chinese temporal expressions are collected and mined, and the classification of numbers (cardinality, approximation, number of sets, scores, multiples) is collected and excavated, and then the bilingual rule base and translation template are constructed, respectively. Recognize Chinese time expression or number and find out its corresponding regular template, output the result of Uygur translation of time expression or number, analyze and classify classifier, divide the quantifier into ambiguous quantifier and unambiguous quantifier. Unambiguous quantifiers are divided into four situations (numeral one-to-one correspondence, quantifier loss, number-one-to-one correspondence, quantifier one-to-one correspondence, numeral loss, quantifier one-to-one correspondence, numeral quantifiers lost, and ambiguous quantifiers according to different contextual nouns. The translation results of quantifiers are also different. The classifier phrases are collected by the above classification method and the rule base is added separately.) based on the Seq2Seq model, the neural machine translation of ambiguous quantifier phrases is realized and the accuracy of Chinese-Uygur quantifier translation is improved effectively. Gao Hanwei machine translation system to the time, In this paper, we use bilingual corpus to extract Chinese time, number and quantifier phrases to realize the translation method based on rules, templates and neural networks.
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.2
【参考文献】
相关期刊论文 前10条
1 阿依古丽·哈力克;艾山·吾买尔;吐尔根·伊布拉音;卡哈尔江·阿比的热西提;买合木提·买买提;;汉维时间数字和量词的识别与翻译研究[J];中文信息学报;2016年06期
2 杨萍;侯宏旭;蒋玉鹏;申志鹏;杜健;;基于双语对齐的汉语 新蒙古文命名实体翻译[J];北京大学学报(自然科学版);2016年01期
3 张磊;杨雅婷;米成刚;李晓;;维吾尔语数词类命名实体的识别与翻译[J];计算机应用与软件;2015年08期
4 尹存燕;黄书剑;戴新宇;陈家骏;;中英命名实体识别及对齐中的中文分词优化[J];电子学报;2015年08期
5 李风环;郑德权;赵铁军;;基于浅层语义分析的主题事件的时间识别[J];山东大学学报(理学版);2015年11期
6 邹岳琳;吐尔根·依布拉音;麦热哈巴·艾力;艾山·吾买尔;帕力旦·吐尔逊;;基于词干提取的维吾尔语事件类时间短语识别[J];计算机工程与设计;2014年02期
7 赵紫玉;徐金安;张玉洁;刘江鸣;;规则与统计相结合的日语时间表达式识别[J];中文信息学报;2013年06期
8 王伟;赵东岩;苏婷婷;;C-TERN:一种基于CFSA的军事新闻文本时间信息处理算法[J];北京大学学报(自然科学版);2014年01期
9 赵紫玉;徐金安;张玉洁;刘江鸣;;日语时间表达式识别与日汉翻译研究[J];北京大学学报(自然科学版);2014年01期
10 李君婵;谭红叶;王风娥;;中文时间表达式及类型识别[J];计算机科学;2012年S3期
相关硕士学位论文 前1条
1 郑宏;汉英双向时间数字和数量词的识别与翻译技术[D];哈尔滨工业大学;2011年
,本文编号:1692737
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1692737.html