当前位置:主页 > 科技论文 > 软件论文 >

“自下而上”的传统蒙古文简单句句法分析研究与实现

发布时间:2018-04-20 17:52

  本文选题:句法分析 + 传统蒙古文简单句 ; 参考:《内蒙古大学》2017年硕士论文


【摘要】:句法分析(SyntacticParsing)是自然语言处理的一个关键技术,其基本任务是确定句子的成分。因为句法分析需要结合复杂的句法结构,所以该领域一直是自然语言处理的一个难点且发展较为缓慢。蒙古文是我国少数民族地区使用的语言文字之一,而且由于其蒙古文语言特点的复杂性,蒙古文句法分析研究一直处于缓慢发展的阶段。本文结合蒙古文简单句的特点,采用基于规则的自下而上的方法对蒙古文简单句进行句法分析。本文的主要研究内容有以下几点:(1)格与主语标志词还原规则的建立。蒙古文简单句中经常会出现省略格与主语标志词的情况。通过对省略格与主语标志词的句型进行研究,制定了格与主语标志词还原规则,进而达到了更好地分析句子成分的目的。(2)自下而上的传统蒙古文简单句句法分析算法。本文根据传统蒙古文的特点提出了自下而上的句法分析的方法,同时设计了该方法的算法并加以实现。实验结果表明,格与主语标志词的还原明显地提高了句子成分划分的准确率。(3)蒙古文词性标注。本文的词性标注采用的是基于字典和规则相结合的方法,首先通过字典库对单个词和词组进行词性标注,然后采用基于规则的方法对未登录词进行词性标注。实验结果表明该方法能够达到句法分析的基本要求。(4)词典库的完善以及规则库的建立。本文根据蒙古文词的特点,建立了词缀库并对原有的词典库进行了完善。在建立的规则库中,动词规则有141条(除去古语动词规则)、名词规则有38条、形容词规则有15条。实验结果表明,规则库的完善这极大地提高了词性标注的准确率。
[Abstract]:Syntactic parsing is a key technique in natural language processing, whose basic task is to determine the composition of sentences. Because syntactic analysis needs to be combined with complex syntactic structures, this field has been a difficulty in natural language processing and has been developing slowly. Mongolian is one of the languages used in minority areas of China, and because of the complexity of its Mongolian language characteristics, the study of Mongolian syntactic analysis has been in the stage of slow development. Based on the features of Mongolian simple sentences, this paper analyzes the syntax of Mongolian simple sentences by rule-based bottom-up method. The main research contents of this paper are as follows: 1) case and the establishment of the rule of restoring the subject marker. Ellipsis and subject markers are often found in simple Mongolian sentences. By studying the sentence pattern of ellipsis case and subject marker, this paper formulates the rules of the reduction of case and subject marker, and then achieves the purpose of better analyzing the sentence composition. 2) the bottom-up traditional Mongolian simple sentence syntax analysis algorithm. In this paper, a bottom-up syntactic analysis method is proposed according to the characteristics of traditional Mongolian, and the algorithm of this method is designed and implemented. The experimental results show that the reduction of case and subject markers significantly improves the accuracy of sentence component classification. The part of speech tagging in this paper is based on the combination of dictionaries and rules. Firstly, a dictionary is used to label a single word and a phrase, and then a rule-based method is used to label unregistered words in part of part of speech. The experimental results show that the method can meet the basic requirements of syntactic parsing. According to the characteristics of Mongolian words, the affix database is established and the original dictionary is improved. In the established rule base, there are 141 rules for verbs (except for old verbs, 38 for nouns and 15 for adjectives). Experimental results show that the improvement of rule base greatly improves the accuracy of part of speech tagging.
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 包萨仁图雅;达胡白乙拉;;蒙古语句法结构分析中句子的自动识别和分类[J];内蒙古民族大学学报(社会科学版);2015年05期

2 苏向东;高光来;闫学亮;;蒙古文依存句法分析[J];计算机科学;2014年08期

3 赵建东;高光来;飞龙;;基于历史模型的蒙古文自动词性标注研究[J];中文信息学报;2013年05期

4 吴伟成;周俊生;曲维光;;基于统计学习模型的句法分析方法综述[J];中文信息学报;2013年03期

5 袁里驰;;基于改进的隐马尔科夫模型的词性标注方法[J];中南大学学报(自然科学版);2012年08期

6 张贯虹;斯·劳格劳;乌达巴拉;;融合形态特征的最大熵蒙古文词性标注模型[J];计算机研究与发展;2011年12期

7 姜文斌;吴金星;长青;那顺乌日图;刘群;赵理莉;;蒙古语词法分析的有向图模型[J];中文信息学报;2011年05期

8 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期

9 王鹏,戴新宇,陈家骏,王启祥;基于规则的汉语句法分析方法研究[J];计算机工程与应用;2003年29期

10 孟遥,李生,赵铁军,曹海龙;四种基本统计句法分析模型在汉语句法分析中的性能比较[J];中文信息学报;2003年03期

相关会议论文 前1条

1 王斯日古楞;德·萨日娜;那顺乌日图;;现代蒙古语谓语段自动标注系统的设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

相关博士学位论文 前2条

1 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年

2 达胡白乙拉;蒙古语基本动词短语自动识别研究[D];内蒙古大学;2005年

相关硕士学位论文 前10条

1 莫日根;基于规则的传统蒙古文句法分析研究[D];内蒙古大学;2016年

2 熊晓晓;基于蒙古语名词语义网的同形词歧义消除算法的研究[D];内蒙古师范大学;2015年

3 李坤;蒙古文网络热点词提取算法研究[D];内蒙古大学;2015年

4 刘慧敏;中文词性标注及未登录词词性预测研究[D];南京师范大学;2015年

5 完么才让;基于规则的藏语句法分析研究[D];青海民族大学;2014年

6 阿荣;蒙古文统计句法分析研究[D];内蒙古师范大学;2014年

7 李华栋;基于规则的汉语兼类词标注方法研究[D];西南交通大学;2014年

8 明玉;基于词典、规则与统计的蒙古文词切分系统的研究[D];内蒙古大学;2011年

9 吴金星;蒙古语词法标注语料库的构建及相关技术研究[D];内蒙古大学;2011年

10 艳红;基于统计的蒙古文自动词性标注的研究与实现[D];内蒙古师范大学;2010年



本文编号:1778795

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1778795.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户43ef6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com