缅甸语词性标注语料库构建方法研究
本文选题:词性标注 + 词性标注语料库 ; 参考:《昆明理工大学》2017年硕士论文
【摘要】:词性标注是自然语言信息处理的基础工作,词性标注的准确率直接影响自然语言处理的上层应用效果。由于缅甸语在自然语言处理方面基础较薄弱,国内外开展缅语词性标记方法研究的工作相对较少。缅甸语属于资源稀缺语言,目前基于统计的词性标注方法对于缺乏大规模人工标记样本作为训练语料的缅甸语词性标记而言还不能取得明显的效果。因此,如何构建一定规模的缅甸语词性标注语料库,对于开展缅甸语词性标记工作具有非常重要的应用价值。本文围绕缅甸语语料库构建,缅甸语词性标注语料库的构建展开相关工作并取得以下成果:(1)由于目前没有开放的缅甸语语料库资源,所以本文围绕缅甸语语料库构建展开工作。通过收集缅甸语新闻网站,分析网页结构,爬取缅甸语新闻,获得缅甸语新闻文本;收集英缅词典,英缅汉词典,构建一定规模的缅甸语词典库;通过汉缅双语新闻网站,爬取汉缅双语可比文档,构建缅甸语语料库。(2)提出基于双语可比语料的缅甸语词性标注语料库构建方法。利用基于汉-缅双语词典及WordNet双语词语上下文向量相似度计算方法抽取汉-缅互译词,并利用双语词性映射的方法,实现缅甸语词性标注,构建缅甸语词性标注语料库。(3)提出一种融合词典知识的缅甸语词性标注语料库构建方法。首先在上一种方法获取的词性标注语料库中提取词语扩充英缅词典,利用英缅词典对缅甸语单语新闻分词文本进行词性粗标注,同时构建一些规则库对未登录词和兼类词的词性标注的规则支持,同时利用贝叶斯模型对兼类词进行词性消歧;通过这种方法,完成缅甸语的词性标注工作,构建出缅甸语词性标注语料库,完成预期目标。
[Abstract]:POS tagging is the basic work of natural language information processing, the application accuracy of POS tagging directly affected Natural Language Processing. Due to the Burmese Language Based on Natural Language Processing is weak, on the Burmese POS tagging methods at home and abroad to carry out the work is relatively less. Burmese language belongs to the scarcity of resources, the current statistical tagging method for Burmese the lack of large-scale labeled POS tagging samples as the training corpus is not achieved significant results. Based on the result, Burmese speech how to construct certain scale labeled corpus, for it has very important application value to carry out the Burmese Language part of speech tagging work. This paper focuses on the Burmese Language Corpus Construction, Burmese construction related corpus tagging the work and research results are as follows: (1) the Burmese language corpus is not currently open This paper focuses on the resources, so the Burmese language corpus construction work. Through the collection of Burmese news website, web page structure analysis, crawling Burmese news, get Burmese news text; collection of British Burma dictionary, Yingmianhan dictionary, construction of a certain scale of the Burmese Language Dictionary; the Chinese Burmese Bilingual News website, crawling bilingual Chinese and Burmese comparable documents, construction of the Burmese Language Corpus. (2) propose bilingual comparable corpus annotation Burmese speech corpus based on the construction method. Based on the Han - Burma bilingual dictionary and WordNet bilingual word context vector similarity method to extract Chinese translation of Burma words, and use the method of bilingual speech mapping, implementation of Burmese tagging the construction of part of speech tagging corpus. (3) proposed a Burmese speech fusion dictionary knowledge corpus construction method. Firstly, a method of obtaining the POS tagging language British Burma dictionary expansion extraction corpora, part of speech tagging on crude Burmese monolingual news text by British Burma dictionary, and construct some rules on the part of speech of unknown words and POS tagging rules support, at the same time using the Bias model of words for word disambiguation; by this method, completed in Myanmar part of speech tagging, construct the corpus of Burmese speech tagging, the target.
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 谢春丽;;缅甸语句型分析技巧的价值及意义[J];时代教育;2016年17期
2 ;国家发展改革委、外交部、商务部联合发布《推动共建丝绸之路经济带和21世纪海上丝绸之路的愿景与行动》[J];城市规划通讯;2015年07期
3 庞伟;;双语语料库构建研究综述[J];信息技术与信息化;2015年03期
4 陈霞枫;;缅甸改革对中缅关系的影响及中国的对策[J];东南亚研究;2013年01期
5 王达;张坤;;贝叶斯模型在词义消歧中的应用[J];计算机时代;2009年07期
6 韦红萍;;我国培养东南亚语种人才的发展道路[J];东南亚纵横;2008年05期
7 梁妍;朱耀庭;;错误驱动学习在未登录词词性标注中的应用[J];计算机工程与设计;2008年06期
8 连乐新;胡仁龙;杨翠丽;袁春风;;基于中文宾州树库的浅层语义分析[J];计算机应用研究;2008年03期
9 卢志茂,刘挺,张刚,李生;基于依存分析改进贝叶斯模型的词义消歧[J];高技术通讯;2003年05期
10 常宝宝,詹卫东,张华瑞;面向汉英机器翻译的双语语料库的建设及其管理[J];术语标准化与信息技术;2003年01期
相关硕士学位论文 前5条
1 高天宏;互联网舆情分析中信息采集技术的研究与设计[D];北京邮电大学;2015年
2 吴耶瓦达(ASHIN REVATA);缅文《转法轮经》中的巴利语借词研究[D];云南大学;2012年
3 朱颖;基于HMM的汉语词性标注及其改进[D];太原理工大学;2011年
4 孙静;基于平行语料库的无监督中文词性标注研究[D];苏州大学;2010年
5 梁以敏;基于统计的汉语词性标注方法的研究[D];大连理工大学;2004年
,本文编号:1736996
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1736996.html