当前位置:主页 > 科技论文 > 软件论文 >

基于非参数贝叶斯模型的柬汉人名音译

发布时间:2018-03-23 16:20

  本文选题:柬埔寨—汉语 切入点:狄利克雷过程 出处:《昆明理工大学》2017年硕士论文


【摘要】:自然语言处理过程中,人名音译是一项重要基础任务,在跨语言信息检索和上层的机器翻译等领域都有重要应用。由于受到语料规模和基础研究的限制,目前在柬埔寨—汉语人名音译方法的研究上,还处于初步阶段。本文主要围绕柬埔寨—汉语人名音译方法进行研究。论文的主要工作归纳如下:1、基于非参数贝叶斯和条件随机场的柬埔寨-汉语人名音译。本章提出基于狄利克雷过程和条件随机场的柬埔寨—汉语人名音译方法,利用狄利克雷过程的理论,实现柬埔寨人名音节切分算法,柬埔寨人名音节经过音节切分算法成为柬埔寨音节,采用条件随机场构建柬埔寨—汉语人名音译模型,柬埔寨—汉语人名音译的准确率达46.5%。2、基于分层的狄利克雷过程的柬埔寨—汉语人名音译。本章提出基于分层的狄利克雷过程的方法实现柬埔寨人名到汉语人名的多到多对齐。基于分层的狄利克雷过程的柬埔寨—汉语人名音译是利用分层的狄利克雷过程的理论,实现柬埔寨—汉语双语人名音节对齐算法,用音节对齐算法将网络上爬取的柬埔寨—汉语双语人名进行音节对齐,用对齐后的语料作为训练语料,采用摩西构建柬埔寨—汉语人名音译模型,用测试语料测试柬埔寨-汉语人名音译模型,准确率达51.6%,召回率 47.5%,F 值为 49.47%。3、基于分层的狄利克雷过程的柬埔寨-汉语人名音译系统的构建,把基于分层的狄利克雷过程的柬埔寨—汉语人名音译方法应用到柬埔寨—汉语的人名音译系统中,采用开源的Web框架搭建在线柬埔寨—汉语人名音译系统。
[Abstract]:In the process of natural language processing, transliteration of human names is an important basic task, which has important applications in cross-language information retrieval and upper level machine translation. At present, in the research of Cambodian-Chinese transliteration method, This paper mainly focuses on the method of Cambodian-Chinese transliteration. The main work of this paper is summarized as follows: 1, Cambodian-Chinese transliteration based on non-parametric Bayes and conditional random field. The chapter proposes a Cambodian-Chinese name transliteration method based on the Delikley process and conditional Random Field. By using the theory of Delikley process, this paper realizes the Cambodian name syllable segmentation algorithm, and the Cambodian name syllable segmentation algorithm becomes the Cambodian syllable. The conditional random field is used to construct the Cambodia-Chinese transliteration model. The accuracy of Cambodian-Chinese transliteration is up to 46. 5%. 2. Cambodian-Chinese transliteration based on hierarchical Dilikere process. In this chapter, we propose a method based on hierarchical Dilikley process to realize the realization of Cambodian name to Chinese name. Multiple to multiple alignment. Cambodian-Chinese transliteration of names based on the layered Delikley process is based on the theory of the layered Dilikley process. The syllable alignment algorithm of Cambodia-Chinese bilingual names is realized, and the syllables of Cambodia-Chinese bilingual names crawling on the network are aligned with the syllable alignment algorithm, and the aligned corpus is used as the training corpus. Using Moses to construct the Cambodian-Chinese transliteration model, and using the test corpus to test the Cambodian-Chinese transliteration model. The accuracy rate is 51.6, and the recall rate is 47.47. F is 49.47.3. the construction of the Cambodian-Chinese transliteration system based on the delamination of the Delikley process. The method of Cambodia-Chinese name transliteration based on delamination is applied to the Cambodia-Chinese transliteration system, and an online Cambodia-Chinese transliteration system is constructed by using open source Web framework.
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 刘绍毓;席耀一;李弼程;唐永旺;陈刚;;无监督实体关系触发词词典自动构建[J];计算机应用与软件;2016年05期

2 王杰;严建峰;刘晓升;杨璐;;HDP消息传递算法[J];微电子学与计算机;2016年03期

3 贾闻俊;张晖;杨春明;赵旭剑;李波;;面向产品属性的用户情感模型[J];计算机应用;2016年01期

4 高悦;王文贤;杨淑贤;;一种基于狄利克雷过程混合模型的文本聚类算法[J];信息网络安全;2015年11期

5 刘博佳;徐金安;陈钰枫;张玉洁;;基于字形与语音的音译单元对齐方法[J];北京大学学报(自然科学版);2016年01期

6 王东明;徐金安;陈钰枫;张玉洁;;基于单语语料的面向日语假名的日汉人名翻译对抽取方法[J];中文信息学报;2015年05期

7 瓦依提·阿不力孜;加米拉·吾守尔;吐尔根·依布拉音;阿依佐克拉·瓦依提;;现代维吾尔文音节自动切分方法及其实现[J];中国科技论文;2015年08期

8 梁会方;黄鹤鸣;杨峰;;汉文专有名词藏文音译的研究与实现[J];计算机技术与发展;2014年12期

9 王亮;张绍武;丁X;许侃;林鸿飞;;基于HDP的汽车专利主题演化研究[J];情报学报;2014年09期

10 周志敏;高申勇;;分层Dirichlet过程原理及应用综述[J];计算机应用与软件;2014年08期

相关硕士学位论文 前9条

1 王东明;基于归纳学习法的日语假名和汉语实体对自动获取方法[D];北京交通大学;2016年

2 阿力木·木拉提;基于音节切分的维吾尔人名汉字音译研究与实现[D];新疆师范大学;2014年

3 王丹丹;英汉人名音译的研究[D];大连理工大学;2014年

4 潘华山;基于条件随机场的柬埔寨语词法分析方法研究[D];昆明理工大学;2014年

5 李婷婷;基于非参数贝叶斯学习的多语言人名音译研究[D];哈尔滨工业大学;2013年

6 王祖兴;基于CRF的中文人名自动识别研究[D];华东师范大学;2013年

7 梁镇锋;基于狄利克雷混合过程半监督分类模型研究[D];中山大学;2013年

8 张景云;基于吉布斯采样推理算法的交通预测研究[D];云南大学;2011年

9 周美玲;英汉人名音译方法的研究与实现[D];苏州大学;2009年



本文编号:1654226

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1654226.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户db8bd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com