当前位置:主页 > 经济论文 > 政治经济论文 >

越南语浅层句法分析方法的研究

发布时间:2018-01-01 02:08

  本文关键词:越南语浅层句法分析方法的研究 出处:《昆明理工大学》2017年硕士论文 论文类型:学位论文


  更多相关文章: 越南语 兼类词 命名实体 组块 最大熵 条件随机场 错误驱动转换学习 实体库 规则


【摘要】:随着两国政治、经济和文化等方面日益频繁接触和深入合作,语言交流显得尤为重要。由于两国语言相差较大,造成了沟通上的障碍,进而成为两国发展的绊脚石;同时越南语自然语言处理在人工智能中起到核心作用,同样底层的浅层句法分析是自然语言处理的基础与前提,关系到后续工作的开展,且为上层应用服务。为了两国更好的发展,解决语言问题势在必行;针对上述问题,汉越机器翻译工作越来越重要。本文开展了越南语浅层句法分析的研究,主要完成了以下几个方面的研究工作:1.收集、整理和预处理越南语兼类词、实体和组块相关语料。语料是自然语言处理过程中基础性的课题,故构建语料库显得尤为重要,主要构建越南语兼类词、实体、实体库和组块等语料库,语料主要来源于已公开的少量语料和人工标记校对。2.提出了 一种基于条件随机场的越南语兼类词方法。首先通过分析越南语兼类词特点进行分析,选取有效的兼类词消歧特征,制定相应的特征模版;其次使用条件随机场进行统计建模,得到基于条件随机场的越南语兼类词消歧模型。兼类词问题的解决有利于提高词性标注的准确率,提高词性语料库质量,尽可能防止错误向后累积传递,为越南语命名实体识别提供了基础和支撑。3.提出了一种融合实体特性的越南语命名实体识别的混合方法。首先根据越南语语言和实体特点进行分析,选取全局特征和局部特征作为本文的有效特征,构建基于最大熵模型的越南语实体识别模型;其次利用以上的特点进行制定越南语实体识别的规则集合;最后将最大熵模型和规则集合相结合进行实体识别。实体可以作为组块中有效的特征,同时有利于后续工作的开展。4.提出来了一种条件随机场和错误驱动学习的越南语组块分析方法。首先根据越南语组块和语言特点,选取基本特征和实体特征作为本文的有效特征,使用条件随机场统计方法进行建模,得到组块统计分析模型;其次利用转换学习方法进行获取候选转换规则集合,利用评价函数进行筛选,得到转换规则集合;最后将统计模型和转换规则相结合进行组块分析标记。组块作为实体识别的有效特征有利于实体识别正确率的提高。
[Abstract]:As the political, economic and cultural aspects of the two countries increasingly frequent contact and in-depth cooperation, language exchange is particularly important. Then become the stumbling block of the development of the two countries; At the same time, Vietnamese natural language processing plays a central role in artificial intelligence, the same low-level shallow syntax analysis is the basis and premise of natural language processing, related to the development of follow-up work. For the better development of the two countries, it is imperative to solve the language problem; In order to solve the above problems, Sino-Vietnamese machine translation is becoming more and more important. In this paper, the research on the shallow syntactic analysis of Vietnamese has been carried out, and the following research work has been completed: 1. Collating and preprocessing Vietnamese concomitant words, entities and chunks related corpus. Corpus is a basic subject in the process of natural language processing, so it is particularly important to construct corpus, mainly to construct Vietnamese concomitant words and entities. A corpus of entities and blocks. The corpus mainly comes from a few published corpus and manual marker proofreading. 2. A conditional random field based method of Vietnamese conjunctive words is proposed. Firstly, the characteristics of Vietnamese conjunctive words are analyzed. The effective disambiguation feature of the compound word is selected and the corresponding feature template is established. Secondly, the conditional random field is used for statistical modeling to obtain a conditional random field based Vietnamese word disambiguation model. The solution of concurrent word problem is helpful to improve the accuracy of part of speech tagging and improve the quality of part of speech corpus. As far as possible, prevent the accumulation of errors from being passed back. This paper provides the basis and support for Vietnamese named entity recognition. 3. A hybrid method of Vietnamese named entity recognition is proposed. Firstly, it is analyzed according to the characteristics of Vietnamese language and entity. The global feature and local feature are selected as the effective features in this paper, and a Vietnamese entity recognition model based on the maximum entropy model is constructed. Secondly, make use of the above characteristics to make the Vietnamese language entity recognition rules set; Finally, the maximum entropy model and the rule set are combined to identify the entity. The entity can be used as an effective feature in the block. At the same time, it is helpful to carry out the following work. 4. A conditional random field and error-driven learning method of Vietnamese language block analysis is proposed. Firstly, according to the Vietnamese language block and language characteristics. The basic features and entity features are selected as the effective features in this paper. The conditional random field statistical method is used to model the block statistical analysis model. Secondly, the candidate transformation rule set is obtained by using the transformation learning method, and the set of transformation rules is obtained by the selection of the evaluation function. Finally, the statistical model and the transformation rule are combined to carry out block analysis marking. As an effective feature of entity recognition, block is beneficial to improve the accuracy of entity recognition.
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【相似文献】

相关期刊论文 前1条

1 罗武骏;黄程韦;查诚;赵力;;越南语语音情感特征分析与识别[J];信号处理;2013年10期

相关会议论文 前3条

1 张海云;张超静;毕玉德;;越南语文献中字母缩略语自动提取研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

2 武氏惠;;浅谈汉语多音字对越南语翻译的影响——以“单”字为例[A];学行堂文史集刊——2013年第2期[C];2013年

3 林丽;毕玉德;;越南语给予类动词的语义结构和层级分类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

相关重要报纸文章 前10条

1 实习生 黄一婧 记者 周仕兴;全国越南语口语大赛在邕举行[N];广西日报;2005年

2 陆勇;崇左打响越南语人才跨国劳务品牌[N];中国劳动保障报;2008年

3 本报记者 曹植勤 实习生 侯少华 邓芳;越南语里的中国文化[N];南宁日报;2008年

4 唐光福;加强技能培训 提升业务能力[N];边防警察报;2010年

5 记者 郑雅邋实习生 刘小灵 袁晶;把中越语言文化研究向前推进[N];南宁日报;2007年

6 本报记者 伍建青;教育交流浇灌友谊之花[N];广西日报;2010年

7 黄志辉 班绍长;一口流利越南语 边贸派上大用场[N];中国劳动保障报;2013年

8 周汉青 本报记者 陈典宏;中士伍新海边境线上的“金牌翻译”[N];解放军报;2010年

9 谢莉丽;越南语毕业生火爆东盟[N];广西日报;2004年

10 通讯员 海仁;海南特招俄语和越南语专业公务员[N];中国人事报;2008年

相关博士学位论文 前6条

1 武金英(VU KIM ANH);汉越词研究[D];河北大学;2016年

2 武忠定;越南语核心词研究[D];华中科技大学;2012年

3 阮氏玉华;越南语佛教词语研究[D];华中科技大学;2011年

4 阮氏玉华;越南语佛教词语研究[D];华中科技大学;2011年

5 阮大瞿越(Nguy(?)n (?)i C(?) Vi(?)t;十七世纪越南汉字音(A类)研究[D];北京大学;2011年

6 阮氏黎心;汉越人体名词隐喻对比研究[D];华东师范大学;2011年

相关硕士学位论文 前10条

1 阮武琼芳;汉越词及汉越音在新时期越南语中的实践价值[D];首都师范大学;2007年

2 徐淑媛;越南语问候语研究[D];广西民族大学;2015年

3 陈氏青日;越南语与汉语拟声词对比研究[D];广西民族大学;2014年

4 莫媛媛;汉越双语词语对齐方法研究[D];昆明理工大学;2015年

5 陈氏贤;汉语副词“都”与越南语对应词对比研究和偏误分析[D];福建师范大学;2015年

6 颜伟光(NHAN VI QUANG);越南语注释的汉语教材中同译动词的研究[D];福建师范大学;2015年

7 庞纳敏;新HSK六级词汇汉越比较研究[D];广西大学;2015年

8 阮氏庄;汉越介词对比研究及越南学生使用汉语介词的调查分析[D];东北师范大学;2015年

9 范功名(Pham Cong Danh);汉—越语短语语序与正负迁移研究[D];河北师范大学;2015年

10 黎明柱子;汉越词:类别与越化[D];广东外语外贸大学;2015年



本文编号:1362453

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/zhengzhijingjixuelunwen/1362453.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户edeef***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com