现代哈萨克语自动形态分析及语料库建设
发布时间:2017-09-14 19:38
本文关键词:现代哈萨克语自动形态分析及语料库建设
【摘要】:哈萨克语隶属于阿尔泰语系突厥语族,是一种典型的黏着语。国内的哈萨克文使用阿拉伯字母拼写,属于拼音文字,由24个辅音字母、9个元音字母和一个软音符号组成。在电子文本中,哈萨克文字编码采用国际通用Unicode编码存储。从结构上讲,哈萨克语词通常包括词根、词干(词根+词缀)、附加成分(词缀和词尾)三部分。哈萨克语是形态发达的语言,构形词尾数量众多,通常一个词尾对应表达一种语法意义,当需要同时表达多种语法意义时,可依次在词干上缀接多个表达不同语法意义的词尾。哈萨克语语法结构的严整和缀接构形词尾具备规则性为哈萨克实现形态分析提供了便利。语料库与自然语言信息处理有着相辅相成的关系,大规模的语料库需要用统计语言模型的方法处理自然语言的基础资源。因此,自动形态分析是大规模构建语料库的前提,而哈萨克语自动形态分析主要任务是实现词干提取和词性标注。词干提取就是对给定的单词,通过自动形态分析提取出表达该词汇原始词汇意义的有效字符串,切分出表达语法意义的各个附加成分。词干提取和词性标注是黏着语自然语言处理词法分析的一个重要的环节,在哈萨克语里,词干提取遇到的主要问题是词干提取歧义,未登录词和词干不规则形变还原。本文所建立的平衡语料库以规范性和易获取性为基本原则,在此基础上选择来自人民网的哈萨克语web资源作为语料库的来源。通过程序自动形态分析,实现对20.7万词web语料的词干提取和词性标注,并据此构建标注语料库。建立哈萨克语语料库具有直接的实用价值,为哈萨克语究者提供了语料库研究方法的可能,同时为语言教学、词典编撰及机器翻译等工作提供便利。
【关键词】:哈萨克语 语料库 自动形态分析 使动态
【学位授予单位】:中央民族大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:H236
【目录】:
- 摘要3-5
- ABSTRACT5-11
- 前言11-19
- 第一节 研究目的和意义11-13
- 一、研究目的11-12
- 二、研究意义12-13
- 第二节 主要研究方法13-14
- 第三节 说明14-16
- 一、内容说明14
- 二、符号使用说明14-16
- 第四节 研究动态16-19
- 一、国外研究16
- 二、国内研究16-19
- 第一章 语料库与自然语言处理19-23
- 第一节 语料库语言学19-21
- 一、语料库的分类19-20
- 二、语料库的实用价值20-21
- 第二节 自然语言处理21-22
- 第三节 语料库与自然语言处理22-23
- 第二章 哈萨克语料库构建方案23-25
- 第一节 总目标23
- 第二节 实现步骤及任务23-24
- 第三节 预期成果24-25
- 第三章 基础材料的准备与加工25-31
- 第一节 哈萨克语词干表的构建25-26
- 第二节 哈萨克语附加成分表的构建26-27
- 一、构形词尾表26
- 二、构词词缀表26-27
- 第三节 语料的选择及初步加工27-31
- 一、语料库的规模27-28
- 二、语料库的内容28-29
- 三、语料的加工29-31
- 第四章 哈萨克语自动形态分析31-36
- 第一节 自动形态分析的理论依据31-32
- 第二节 自动形态分析的必要性32-33
- 第三节 哈萨克语形态分析的实现范围33-36
- 第五章 哈萨克语自动形态分析系统的建立36-42
- 第一节 自动形态分析系统工作流程36
- 第二节 哈萨克语自动形态分析步骤36-39
- 一、构形词尾切分和词干提取36-37
- 二、词干提取和词尾切分总流程37-39
- 第三节 人工辅助标注39
- 第四节 哈萨克语形态分析系统的实现39-42
- 一、形态分析系统主界面40-41
- 二、哈萨克语数据库41-42
- 第六章 自动形态分析的结果和问题解决42-55
- 第一节 自动形态分析结果42-44
- 一、实验数据42
- 二、实验结果42-44
- 第二节 实验中出现的问题44-46
- 第三节 自动形态分析中常见问题的解决方案46-55
- 一、词形变化的处理46-47
- 二、歧义现象的处理47-52
- 三、未登录词的处理52-55
- 第七章 哈萨克语语料库的应用55-60
- 第一节 哈萨克语动词的使动态55-56
- 第二节 使动态词尾的缀接情况56-58
- 一、使动态词尾t的缀接情况56
- 二、使动态词尾DIr56-57
- 三、使动态词尾GIz57
- 四、使动态词尾Ir57
- 五、多种缀接57-58
- 第三节 使动态词尾的重叠缀接58-59
- 一、重叠缀接两个使动态词尾58-59
- 二、重叠缀接三个使动态词尾59
- 第四节 使动态词尾构词59-60
- 第八章 结论和展望60-62
- 第一节 研究成果60-61
- 一、构建哈萨克语词法分析系统60
- 二、构建20万词哈萨克语web标注语料库60-61
- 三、利用语料库对哈萨克语使动态进行定量研究61
- 第二节 未来展望61-62
- 参考文献62-65
- 附录65-92
- 附录一65-80
- 一、静词65-72
- 二、动词72-80
- 附录二 哈萨克语形态分析系统使用说明80-92
- 一、系统使用说明80-90
- 二、系统的维护90-92
- 致谢92-94
- 攻读学位期间发表的学术论文目录94
【参考文献】
中国期刊全文数据库 前4条
1 艾山·吾买尔;吐尔根·依步拉音;早克热·卡德尔;;基于噪声信道的维吾尔语央音原音识别模型[J];计算机工程与应用;2010年15期
2 古丽拉·阿东别克;达吾勒·阿布都哈依尔;木合亚提·尼亚孜别克;刘晓洁;;现代哈萨克语词级标注语料库的构建研究[J];新疆大学学报(自然科学版);2009年04期
3 达吾勒·阿布都哈依尔;海拉提·克孜尔别克;;基于规则的哈萨克语词干提取算法的研究[J];新疆大学学报(自然科学版);2011年02期
4 张定京;;哈萨克语语法结构特点概要(上)[J];语言与翻译;2010年02期
,本文编号:851959
本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/851959.html