哈萨克语词性标注软件的开发
发布时间:2017-04-29 18:12
本文关键词:哈萨克语词性标注软件的开发,,由笔耕文化传播整理发布。
【摘要】:词性标注在自然语言处理领域中都有着重要角色。哈萨克语是新疆地区通用的少数民族语言之一,在自然语言处理和民文信息处理的一些基础性的课题同时也被成为紧迫需要解决的问题。它的研究成果为网络信息安全、搜索引擎、机器翻译等很多领域的相关研究奠定了大量基础。建立高质量的标注语料库是现代哈萨克语自然语言信息处理领域的基础性工程,因此,设计并实现哈萨克语词性自动标注系统有重要的理论性和实用性意义。本论文根据哈萨克语独特的语言特性,进行词语带标注的哈萨克语语料库建立研究,首先介绍了自然语言理解的概念,本论文的研究目的和意义,然后回顾了不同语言语料库在国内外的研究现状,随后针对性的研究了词性标注系统的设计和相关技术,实现了哈萨克语词语带基本标注的系统。本论文不仅对哈萨克文的词性标注理论做了系统地研究,还对哈萨克文中的未登录词的识别做了一定的处理;构建人工标注语料库,词典库,词性知识库;还通过程序设计来实现了一个哈萨克文词性基本标注系统,通过对本系统开放语料测试,词性标注的正确率达74.32%,封闭语料测试的标注正确率达76.4%。本论文除了词性标注以外还实现了词频统计和词性统计等功能,即对系统中所出现的各个词和各类词性做了一个简单的统计。
【关键词】:哈萨克语 自然语言处理 词性标注 语料库
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要2-3
- Abstract3-6
- 第一章 引言6-14
- 1.1. 项目来源6
- 1.2. 自然语言理解概述6-7
- 1.3. 本论文的背景和意义7-9
- 1.3.1 研究背景7-8
- 1.3.2 研究意义8-9
- 1.4. 国内外研究现状9-12
- 1.4.1 国外研究现状9-10
- 1.4.2 国内研究现状10-11
- 1.4.3 哈萨克文信息化研究现状11-12
- 1.5. 哈萨克语词性标注研究的难点12
- 1.6. 论文研究内容及结构12-14
- 第二章 哈萨克语的基本知识14-24
- 2.1. 哈萨克语简介14-15
- 2.2. 哈萨克语词汇意义15-17
- 2.2.1 概念意义15
- 2.2.2 附加意义15-17
- 2.3. 哈萨克语语法17-19
- 2.3.1 哈萨克语词法分析18-19
- 2.3.2 哈萨克语句法分析19
- 2.4. 词性标注的方法介绍19-24
- 2.4.1 基于规则的词性标注方法20-21
- 2.4.2 基于统计的词性标注方法21-22
- 2.4.3 基于规则和基于统计相结合的词性标注方法22-24
- 第三章 词性标注系统的设计与实现24-39
- 3.1. 选择词性标记集的原则24-25
- 3.2. 训练语料库的选择25
- 3.3. 系统的设计25-29
- 3.3.1 系统的开发环境25-26
- 3.3.2 系统的数据库设计26-27
- 3.3.3 数据库表的设计27-28
- 3.3.4系统的功能28-29
- 3.4. 人工标注模块的实现29-31
- 3.4.1 单词和相应句子的提取29
- 3.4.2 系统的数据流程29-30
- 3.4.3 系统的主界面30-31
- 3.5. 自动标注模块的实现31-37
- 3.5.1 系统总流程31-32
- 3.5.2 词典库的建立32
- 3.5.3 基于规则的词性的标注方法32-33
- 3.5.4 规则库的建立33-34
- 3.5.5 自动标注主界面34-37
- 3.6. 词频统计模块的实现37-38
- 3.7. 词性统计模块的实现38-39
- 第四章 实验结果与分析39-41
- 4.1. 评测方法39
- 4.2. 实验结果39-40
- 4.3. 实验结果分析40
- 4.4. 标注结果中的错误分析40-41
- 第五章 总结与展望41-43
- 5.1. 总结41
- 5.2. 展望41-43
- 参考文献43-45
- 致谢45-46
【参考文献】
中国期刊全文数据库 前2条
1 刘艳;古丽拉.阿东别克;伊力亚尔;;哈萨克语词性自动标注研究初探[J];计算机工程与应用;2008年20期
2 黄中祥;哈萨克语的词义类型[J];语言与翻译;2001年04期
中国博士学位论文全文数据库 前1条
1 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
本文关键词:哈萨克语词性标注软件的开发,由笔耕文化传播整理发布。
本文编号:335360
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/335360.html