俄语现代标注语料库的理论与实践
发布时间:2017-05-16 20:01
本文关键词:俄语现代标注语料库的理论与实践,,由笔耕文化传播整理发布。
【摘要】: 现代科学的重要特征之一就是学科的交叉和融合,而语言学也积极与其它学科交叉,涉及心理学、计算机、哲学、脑科学、生物学等多门学科。语料库语言学即为一门集语言学理论、数学思维模式和计算机技术为一体重要交叉学科。 语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料进行研究和利用的方法。从方法论的角度而言,语料库方法不仅可以用于研究语言系统的各个层面,描写语言的语法结构、词汇、语义和语用等多层次的信息,并依据从语料库中所提取的语言事实验证现行的语言学理论模型,形成新的学术观点;而且可以应用于语言学的其他领域,如机器翻译、信息检索、语音输入等。 20世纪80年代,语料库语言学的研究进入一个迅速发展的新时期,由于计算机硬件的发展与普及和软件的开发与运用,以计算机检索为手段、以电子文本为主要内容的计算机语料库纷纷建立。世界范围内语料库的建设和研究人员大多集中在以英语为母语的国家,从英语语料库建设和语料库语言学研究的情况来看,主要有以下几个特点:1)基于不同的研究目的,语料库的类型丰富多样;2)由于英语语料的采集最方便,因而语言语料库的语料收集范围广,内容充实;3)英语语料库语言学研究的领域宽泛、全面,涵盖了从自然语言处理、词典编纂到基于语料库的语音分析、语音识别和合成、词语研究、词语搭配分析、词法分析、句法分析、语篇分析、语用及话语分析、学习者语言分析、语言教学、文化及翻译研究以及语言对比研究等众多领域。 上述这些特点包含着传统语言学成果的运用、现代语言学理论和研究方法的支持以及信息技术的高速发展,英语语料库成为世界语料库语言学学科形成的基础,这也是历史发展的必然。 俄罗斯的语料库研究虽然落后于西方,但是在新千年前后得到了长足的发展,建立了一些大型的采集各种各样语料、具有不同处理层次、包含各种标注信息、以不同方式进行标注的语料库,例如二十世纪俄文报刊语料库(КомпьютерныйкорпустекстоврусскихгазетконцаXXвека),而规模最大的当推俄语国家语料库(Национальныйкорпусрусскогоязыка),现已采集3500万词次的语料,其最终目标是达到2亿词次。 虽然现代俄语语料库语言学对建库方式和原则没有统一的规范,但是对俄语语料库基础理论和实际应用的研究,可以为国内俄语学者利用语料库进行各种语言学课题研究提供极具参考价值的重要资源,对俄语学习和教学也大有裨益。 因此,本文的研究目标为勾勒俄罗斯语料库语言学的总体概貌,重点研究俄语国家语料库的建库技术以及俄语语料库在语言学研究中的实际应用。也就是说,本文从理论研究和实例分析两个方面对不同类型的语料库进行系统、详细的研究。此项较大规模专题研究在国内俄语界中尚属首次,在一定程度上具有理论和实践价值,这正是本文的新意所在。本文的研究任务是:1)力求宏观审视俄语语料库语言学的发展历史;2)深入研究俄语标注语料库、尤其是俄语国家语料库的建库原则和技术,探讨利用俄语标注语料库进行语言学研究的方法;3)尝试编制程序服务于已标注俄语语料库的手工消歧工作。全文由6部分组成,包括绪论、四章和结束语。 在绪论部分,我们简要叙述语料库和语料库语言学的基本常识,厘清语料库语言学的学科定义,同时涉及世界语料库的发展历史和当今语料库的地位;阐述本文研究的现实意义、研究目的、研究任务、研究方法、论文新意、理论意义与实践价值等。由于国内俄语学界对语料库的研究范围相对狭窄,相关研究成果比较缺乏,因此我们确定本文的研究目标是:从俄语语料库语言学理论出发,结合各个相关学科(如词法学、语义学)的理论和观点,对俄语语料库的理论研究和建库技术进行深入剖析。 第一章《俄语语料库研究概述》首先简要介绍俄语语料库的发展历史,我们认为现代俄语语料库建设的指导思想主要是实用主义,其目的为了满足俄罗斯语言学各种研究的实际需求;然后我们对有代表性的网络上可访问的ХАНКО、ТК、КГТ、НКРЯ等4个大型标注语料库的发展历程和建库规模加以介绍,并从词法、句法、语义标注三个方面进行详细的对比;最后我们以实例分析为主,力图揭示ХАНКО、ТК、КГТ、НКРЯ的搜索功能在词法上的差别,而这正是俄语语料库用户在实际利用过程中必须注意的问题。 第二章《俄语国家语料库的词法标注》我们从俄语语言单位的两种标注方法——“外部形态分析法”和“深度语义分析法”的区别入手,分析俄语国家语料库采用的词法标注方式、词法标注的类别和结构、词法标注的步骤和原则。根据НКРЯ的语法范畴选择图中的特殊标注,我们将注意力放在这些标注与《俄语语法词典》中的词法标注模型相偏离而难以自动标注的例外词形和非标准的语言现象上,认为只有对这些偏离的语言现象进行广泛深入的研究,才能不断发展词法标注系统并完善机用语法词典。 第三章《俄语国家语料库的词汇语义标注》主要是从语义层次来研究НКРЯ的词汇语义标注体系,首先介绍НКРЯ词汇语义标注的模型基础和语义标注类别;然后从计算机处理的实际出发,研究语义歧义的分类,指出同形异义词和词语的不同义项在НКРЯ中是处于同一个语义平面上的,因而不可避免地造成语义歧义。为了解决语义消歧的问题,我们重点探讨利用过滤器进行语义消歧的方法。在本章最后,我们还利用语义标注进行语言实例研究,展现通过语义标注所能发掘的语言知识的深度。 第四章《标注语料库的手工消歧工具设计》作为本文研究的实验模拟,本章首先对语料库的XML标注语言和标注赋码进行充分研究;然后利用Microsoft Visual Basic 6.0程序语言设计开发手工消歧工具,旨在服务于标注语料库的后处理工作。这种工具对于面向计算机的语言信息处理和面向人的语言教学,均具有重要的实践价值。 在结束语部分,扼要归纳全文研究的主要内容,并针对俄语语料库研究与应用的基本问题提出建设性意见,认为该学科还有待于进一步拓展的广阔学术空间;同时期望俄语语料库的研究成果能够为国内俄语学者所积极享用,为新信息技术条件下我国的俄语语言文学研究和教学注入新的活力。
【关键词】:俄语 语料库 标注 语义消歧
【学位授予单位】:中国人民解放军外国语学院
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:H35
【目录】:
- 中文摘要4-7
- Автореферат7-12
- 绪论12-17
- 1 语料库和语料库语言学的定义12-13
- 2 语料库语言学的发展历史13-14
- 3 语料库语言学兴起的原因14-15
- 4 本文的研究对象、任务、意义与方法15-17
- 第一章 俄语语料库研究概述17-34
- 1.1 俄语语料库发展概览17-18
- 1.2 ХАНКО?ТК?КГТ?НКРЯ及其网站18-23
- 1.3 ХАНКО、ТК、КГТ、НКРЯ在不同层次上的标注方法对比23-27
- 1.4 ХАНКО?ТК?КГТ?НКРЯ在搜索方面的对比27-33
- 1.5 小结33-34
- 第二章 俄语国家语料库的词法标注34-49
- 2.1 俄语语言单位的标注方法34-35
- 2.2 НКРЯ的词法标注集35-36
- 2.3 词法标注的步骤及原则36-41
- 2.4 偏离词法标注模型的特例分析41-47
- 2.5 小结47-49
- 第三章 俄语国家语料库的词汇语义标注49-60
- 3.1 语义标注和《词汇信息库》49-50
- 3.2 语义标注的类别50-53
- 3.3 НКРЯ中的语义消歧问题53-59
- 3.4 小结59-60
- 第四章 标注语料库的手工消歧工具设计60-64
- 4.1 软件说明60
- 4.2 技术基础及算法描述60-62
- 4.3 操作指南62-64
- 结束语64-66
- 参考文献66-71
- 后记71
【参考文献】
中国期刊全文数据库 前10条
1 顾曰国;语料库与语言研究——兼编者的话[J];当代语言学;1998年01期
2 丁信善;语料库语言学的发展及研究现状[J];当代语言学;1998年01期
3 王伯浩;几个大的语料库评介[J];当代语言学;1998年01期
4 孙霞;俄语日常口语体的词法特点[J];呼伦贝尔学院学报;2000年04期
5 陈潇;;语料库、语料库语言学及其应用[J];佛山科学技术学院学报(社会科学版);2006年04期
6 贾雯;;国内语料库语言学研究述评[J];阜阳师范学院学报(社会科学版);2006年05期
7 傅兴尚,许汉成;俄语句法信息的自动化处理——基本构句块及其识别算法[J];解放军外国语学院学报;2004年01期
8 张继东,刘萍;基于语料库同义词辨析的一般方法[J];解放军外国语学院学报;2005年06期
9 冯志伟;;当前自然语言处理发展的几个特点[J];暨南大学华文学院学报;2006年01期
10 张璞,庄成三;XML查询语言技术与实例分析[J];计算机应用研究;2000年05期
中国博士学位论文全文数据库 前1条
1 何婷婷;语料库研究[D];华中师范大学;2003年
本文关键词:俄语现代标注语料库的理论与实践,由笔耕文化传播整理发布。
本文编号:371753
本文链接:https://www.wllwen.com/waiyulunwen/eyulunwen/371753.html