藏语虚词知识库构建研究
发布时间:2017-03-24 07:07
本文关键词:藏语虚词知识库构建研究,,由笔耕文化传播整理发布。
【摘要】:随着计算机的广泛使用和互联网的迅猛发展,人类已经迈向了信息化的社会。利用计算机进行信息处理已经成为这个时代的主旋律。藏文信息处理的研究经过“字”处理迈向“语”处理,在理论探索、基础知识库和语料库等方面的建设取得了较大的成绩,但相对快速膨胀的实际需求而言,藏文信息处理技术依然滞后于实际需求,其中主要的原因是我们为计算机储备的语言知识不够。语言知识库是自然语言处理系统的重要组成部分,其规模与质量是自然语言处理系统成败的关键。对于藏语来说,尤其重视语言知识库的建设。目前藏文信息处理领域的知识库,主要是实词的语法信息字典和各种语料库,此外还没有建立系统的藏语虚词知识库。因此,藏语虚词知识库的构建是目前藏文信息处理领域里的薄弱环节,要想藏文信息处理推向一个新的高度,虚词知识库的构建是一个无法回避的基础性工程。 本文共分八章。 第一章“引言”主要介绍了藏语虚词知识库构建研究的背景及意义、研究现状、研究目的。同时也介绍了藏文信息处理的发展与成就。信息时代,我们要突破传统的语言研究方法从另一个新的形式化框架模式下对藏语语法的研究对象、研究目的、研究方法的转换为切入点,为面向藏语信息处理提供有效的语言资源。 第二章“藏语虚词知识库的构建”主要介绍了藏语虚词的概貌及其作用、藏语虚词知识库的重要性、藏语虚词知识库的构建方法和内容。虚词知识在藏文信息处理的词法分析、句法分析和机器翻译等方面都有很重要的作用。构建方法借鉴了刘云的“三位一体”的思路,即构建藏语虚词机器字典、构建藏语语料库和构建藏语虚词规则库。按照信息处理需求,把藏语虚词分为了三个部分,即格助词、自由和不自由虚词。 第三章、第四章和第五章是本文的重点。本章对藏语“格助词”、“自由虚词”和“不自由虚词”知识库构建内容、方法的综合应用。主要阐述了19个藏语格助词、20个不自由虚词和47个自由虚词共计对86个藏语虚词,通过语法分类、字段设立之后分别建立了机器字典。并利用已建立的4000万字次的语料统计出了频率、频次等相关数据。同时也对每个藏语虚词分别制定了相应的规则。 第六章“实验与结果”主要对格助词制定的标记集为对象,通过人工标注了100万词的语料进行了实验。结果表明效果显著,达到预期的目的。 第七章“构建藏语虚词知识库的难点”主要对藏语虚词归类问题、藏语虚词兼类问题、藏语虚词的半语法化问题和面向机器的藏语虚词描述问题等方面存在的问题进行了说明。 第八章是本文的结语,主要是对已有研究工作的总结和进一步的研究计划。
【关键词】:藏语虚词 藏语信息处理 知识库 机器字典 规则库
【学位授予单位】:西北民族大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:H214
【目录】:
- 摘要2-3
- Abstract3-5
- 藏文摘要5-16
- 第一章 引言16-21
- 1.1 研究背景及意义16-17
- 1.2 研究现状17-18
- 1.2.1 国外研究现状17
- 1.2.2 国内研究现状17-18
- 1.3 面向信息处理的语言问题18-19
- 1.3.1 藏语信息处理的发展18-19
- 1.3.2 藏语信息处理的成就19
- 1.4 计算机背景下的藏语语法问题19-21
- 1.4.1 研究对象的转换19-20
- 1.4.2 研究目的的转换20
- 1.4.3 研究方法的转换20-21
- 第二章 藏语虚词知识库的建设21-29
- 2.1 藏语虚词概念及作用21-22
- 2.1.1 藏语虚词概念21
- 2.1.2 藏语虚词作用21-22
- 2.2 藏语虚词知识库的重要性22-25
- 2.2.1 词法分析中的重要性22-23
- 2.2.2 句法分析中的重要性23-24
- 2.2.3 具体应用中的重要性24-25
- 2.3 藏语虚词知识库的构建方法25-28
- 2.3.1 构建藏语虚词机器字典26
- 2.3.2 构建藏语语料库26-27
- 2.3.3 构建藏语虚词规则库27-28
- 2.4 藏语虚词知识库构建的内容28-29
- 2.4.1 知识库原理28
- 2.4.2 藏语虚词的分类28-29
- 第三章 格助词的知识库29-65
- 3.1 属格助词的知识库31-39
- 3.1.1 属格助词((?))31
- 3.1.2 属格助词的机器字典31-37
- 3.1.2.1 属格助词的语法分类31-35
- 3.1.2.2 属格助词的字段设立35-36
- 3.1.2.3 属格助词的字典摘录36-37
- 3.1.3 基于语料的属格助词37-38
- 3.1.4 属格助词的规则库38-39
- 3.2 作格助词的知识库39-44
- 3.2.1 作格助词((?))39
- 3.2.2 作格助词的机器字典39-43
- 3.2.2.1 作格助词的语法分类39-42
- 3.2.2.2 作格助词的字段设立42
- 3.2.2.3 作格助词的字典摘录42-43
- 3.2.3 基于语料的作格助词43
- 3.2.4 作格助词的规则库43-44
- 3.3 “La”格助词的知识库((?))44-58
- 3.3.1 “La”格助词添接法44-45
- 3.3.2 “La”格助词机器字典45-57
- 3.3.2.1 业格助词((?))45-47
- 3.3.2.1.1 业格助词的语法分类问题45-46
- 3.3.2.1.2 业格助词的字段设立46-47
- 3.3.2.1.3 业格助词的字典摘录47
- 3.3.2.2 为格助词((?))47-49
- 3.3.2.2.1 为格助词的语法问题48-49
- 3.3.2.2.2 为格助词的字段设立49
- 3.3.2.2.3 为格助词的字典摘录49
- 3.3.2.3 依格助词((?))49-51
- 3.3.2.3.1 依格助词的语法问题50-51
- 3.3.2.3.2 依格助词的字段设立51
- 3.3.2.3.3 依格助词的字典摘录51
- 3.3.2.4 同体格助词((?))51-53
- 3.3.2.4.1 同体格助词的语法问题51-52
- 3.3.2.4.3 同体格助词的字段设立52
- 3.3.2.4.4 同体格助词的字典摘录52-53
- 3.3.2.5 时间格助词((?))53-55
- 3.3.2.5.1 时间格助词的语法问题53-54
- 3.3.2.5.2 时间格助词的字段设立54
- 3.3.2.5.3 时间格助词的字典摘录54-55
- 3.3.2.6 “La”格助词的其它用法55-57
- 3.3.4 基于语料的“La”格助词57
- 3.3.5 “La”格助词的规则库57-58
- 3.4 从格助词的知识库58-63
- 3.4.1 从格助词((?))58-59
- 3.4.2 从格助词的机器字典59-62
- 3.4.2.1 从格助词的语法分类59-61
- 3.4.2.2 从格助词的字段设立61
- 3.4.2.3 从格助词的字典摘录61-62
- 3.4.3 基于语料的从格助词62
- 3.4.4 从格助词的规则库62-63
- 3.5 小结63-65
- 第四章 自由虚词的知识库((?))65-87
- 4.1 语气助词的知识库65-68
- 4.1.1 语气助词((?))65-66
- 4.1.2 语气词助的机器字典66-68
- 4.1.2.1 语气助词的分类问题66-67
- 4.1.2.2 语气助词的字段设立67
- 4.1.2.3 语气助词的字典摘录67-68
- 4.1.3 基于语料的语气词助68
- 4.1.4 语气词助的规则库68
- 4.2 连词的知识库68-72
- 4.2.1 连词((?))68-69
- 4.2.2 连词的机器字典69-72
- 4.2.2.1 连词的语法分类问题69-71
- 4.2.2.2 连词的字段设立71
- 4.2.2.3 连词的字典摘录71-72
- 4.2.3 基于语料的连词72
- 4.2.4 连词的规则库72
- 4.3 指示代词的知识库72-76
- 4.3.1 指示代词((?))72-73
- 4.3.2 指示代词的机器字典73-75
- 4.3.2.1 指示代词的分类问题73-74
- 4.3.2.2 指示代词的字段设立74-75
- 4.3.2.3 指示代词的字典摘录75
- 4.3.3 基于语料的指示代词75
- 4.3.4 指示代词的规则库75-76
- 4.4 疑问代词的知识库76-80
- 4.4.1 疑问代词((?))76
- 4.4.2 疑问代词的机器字典76-79
- 4.4.2.1 疑问代词的分类问题76-78
- 4.4.2.2 疑问代词的字段设立78
- 4.4.2.3 疑问代词的字典摘录78-79
- 4.4.3 基于语料的疑问代词79
- 4.4.4 疑问代词的规则库79-80
- 4.5 否定词的知识库80-83
- 4.5.1 否定词((?))80
- 4.5.2 否定词的机器字典80-82
- 4.5.2.1 否定词的分类问题80-82
- 4.5.2.2 否定词的字段设立82
- 4.5.2.3 否定词的字典摘录82
- 4.5.3 基于语料的否定词82-83
- 4.5.4 否定词的规则库83
- 4.6 指人后缀的知识库83-86
- 4.6.1 指人后缀((?))83
- 4.6.2 指人后缀的机器字典83-85
- 4.6.2.1 指人后缀的语法分类问题83-84
- 4.6.2.2 指人后缀的字段设立84
- 4.6.2.3 指人后缀的字典摘录84-85
- 4.6.3 基于语料的指人后缀85
- 4.6.4 指人后缀的规则库85-86
- 4.7 小结86-87
- 第五章 不自由虚词的知识库((?))87-112
- 5.1 饰集词的知识库((?))87-92
- 5.1.1 饰集词的机器字典87-91
- 5.1.1.1 饰集词的分类问题87-90
- 5.1.1.2. 饰集词的字段设立90
- 5.1.1.3 饰集词的字典摘录90-91
- 5.1.2 基于语料的饰集词91
- 5.1.3 饰集词的规则库91-92
- 5.2 待述词的知识库((?))92-96
- 5.2.1 待述词的机器字典92-95
- 5.2.1.1 待述词的分类问题92-94
- 5.2.1.2 待述词的字段设立94
- 5.2.1.3 待述词的字典摘录94-95
- 5.2.2 基于语料的待述词95
- 5.2.3 待述词的规则库95-96
- 5.3 离合词的知识库((?))96-100
- 5.3.1 离合词的机器字典96-99
- 5.3.2.1 离合词的分类问题96-98
- 5.3.2.2 离合词的字段设立98
- 5.3.2.3 离合词的字典摘录98-99
- 5.3.2 基于语料的离合词99
- 5.3.3 离合词的规则库99-100
- 5.4 终结词的知识库((?))100-104
- 5.4.1 终结词的机器字典100-102
- 5.4.1.1 终结词的分类问题100-102
- 5.4.1.2 终结词的字段设立102
- 5.4.1.3 终结词的字典摘录102
- 5.4.2 基于语料的终结词102-103
- 5.4.3 终结词的规则库103-104
- 5.5 虚词((?))等的知识库104-109
- 5.5.1 虚词((?))等((?))104-105
- 5.5.2 虚词((?))等的机器字典105-107
- 5.5.2.1 虚词((?))等的分类问题105-106
- 5.5.2.2 虚词((?))等的字段设立106-107
- 5.5.2.3 虚词((?))等的机器字典摘录107
- 5.5.3 基于语料的虚词((?))等107-108
- 5.5.4 虚词((?))等的规则库108-109
- 5.6 虚词((?))等的知识库109-111
- 5.6.1 虚词((?))等((?))109
- 5.6.2 虚词((?))等的机器字典109-110
- 5.6.2.1 虚词((?))等的分类问题109
- 5.6.2.2 虚词((?))等的字段设立109-110
- 5.6.2.3 虚词((?))等的字典摘录110
- 5.6.3 基于语料的虚词((?))等110
- 5.6.4 虚词((?))等的规则库110-111
- 5.7 小结111-112
- 第六章 虚词知识库在语料中的实验与结果112-115
- 6.1 实验环境112-113
- 6.2 实验结果113-115
- 第七章 构建藏语虚词知识库的难点115-117
- 7.1 藏语虚词归类问题115
- 7.2 藏语虚词兼类问题115-117
- 第八章 结束语117-119
- 8.1 研究工作的回眸117-118
- 8.2 研究工作的展望方面118-119
- 参考文献119-120
- 在校期间研究成果120-121
- 附录121-128
- 致谢128
【参考文献】
中国期刊全文数据库 前7条
1 陈玉忠,俞士汶;藏文信息处理技术的研究现状与展望[J];中国藏学;2003年04期
2 才让三智;多拉;;信息处理中藏语虚词“na”和“la”的标注研究[J];电脑知识与技术;2011年10期
3 昝红英;张坤丽;柴玉梅;俞士汶;;现代汉语虚词知识库的研究[J];中文信息学报;2007年05期
4 扎西加;顿珠次仁;;自然语言处理用藏语格助词的语法信息研究[J];中文信息学报;2010年05期
5 彭爽;俞士汶;;现代汉语介词知识库的建设[J];社会科学战线;2009年08期
6 高定国;关白;;回顾藏文信息处理技术的发展[J];西藏大学学报(社会科学版);2009年03期
7 刘云,俞士汶,朱学锋,段慧明;现代汉语虚词知识库的建设[J];语言文字应用;2005年01期
本文关键词:藏语虚词知识库构建研究,由笔耕文化传播整理发布。
本文编号:265239
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/265239.html