当前位置:主页 > 文艺论文 > 汉语言论文 >

基于蒙古语影视剧语料库的话语标记研究

发布时间:2018-02-16 06:07

  本文关键词: 蒙古语话语标记 蒙古语影视剧语料库 语用功能 自动标注 出处:《内蒙古大学》2012年博士论文 论文类型:学位论文


【摘要】:蒙古语话语标记是处于句子之外表达程序意义,能对话语的理解起到引导作用的词、短语和习惯表达式。它们形式多样,功能复杂,从而影响句法分析的效果。因此,对蒙古语话语标记进行研究有着重要的理论意义和实践价值。本文主要研究的内容有: 1)蒙古语话语标记的界定和分类 蒙古语话语标记是一个复杂的语言现象,对它的界定和分类问题需要多层次、多角度的研究和分析。本文根据句法的可分离性、语义的程序性、功能的元语用性,总结出蒙古语话语标记的特征,把蒙古语话语标记分为14类,并对每一类话语标记的语用功能进行了说明。 2)蒙古语影视剧语料库的构建 如何构建蒙古语影视剧语料库直接影响到话语标记的研究价值,它反映了在其基础上开展的研究是否具有合理性和可靠性。在这方面,本文围绕与语料库构建密切相关的语料库设计、语料收集、语料的组织结构等问题进行了研究。蒙古语影视剧语料库的设计方面介绍了建库的目的和思路;语料的收集方面,围绕语料的代表性和平衡性问题,对语料的分类和比例、分布和样本的选取、语料的流通度等进行了探讨;语料组织方面,对语料的存储格式、数据信息和软件工具进行了介绍。 3)蒙古语话语标记的自动标注和实验分析 本研究旨在提高句法分析的准确率以及为篇章分析提供连贯性显化信息,对蒙古语影视剧语料库中出现的话语标记进行语用功能的自动标注。本文在蒙古语话语标记语用功能分类基础上,制定了蒙古语话语标记自动识别规则,开发了蒙古语话语标记标注系统。第一,根据话语标记的形式特征,经过运算和推导获得话语标记的词法结构信息。第二,从语料库中人工筛选出话语标记,将它们存入基本词表,对其语用功能给出相应的代码,建立符合每一类话语标记特征的标注规则。第三,根据规则开发话语标记自动标注系统,对影视剧语料库中的话语标记进行自动标注。实验结果表明,该系统对30万词级影视剧语料库进行标注后,召回率为54.26%,准确率为85.58%。 4)存在的问题和解决方案 就测试结果来看,召回率和准确率都不是很高,究其原因,主要有以下几方面。第一,规则对兼类话语标记的识别率不高。第二,由于受语料内容、题材、规模等方面的限制,话语标记的出现频率影响了话语标记的召回率。第三,不符合语言事实的垃圾字串,影响话语标记的召回率。第四,蒙古语影视剧语料库的加工程度严重制约了蒙古语话语标记自动标注的准确率。 针对上述问题,我们在后续工作中,准备从以下几方面对系统进行改进和完善。首先,扩充训练集的语料规模,使语料库更为贴近语言事实。其次,完善机器词典,增加信息含量。最后,在基于规则的算法上加入统计模型。 综上所述,本文在话语标记相关理论和实践方面的研究成果上,以蒙古语影视剧语料库中的话语标记为研究对象,对蒙古语话语标记的界定和分类、蒙古语话语标记的自动标注和实验分析以及存在的问题和解决方案等问题进行了研究。 全文共分为五章。第一章介绍了国内外话语标记的相关理论和实践方面的研究成果,以及本研究的方法、意义以及创新点。第二章主要对蒙古语话语标记的涵义、存在动因和形成条件、蒙古语话语标记的语用功能分类体系等相关问题进行了探讨。第三章针对蒙古语影视剧语料库的设计、代表性和平衡性、语料库的组织结构等问题进行了研究。第四章在蒙古语话语标记语用功能分类基础上,开发了蒙古语话语标记标注系统并提取了实验数据。第五章对全文进行了概括总结后指出了本研究的不足,同时对今后的工作指明了方向。
[Abstract]:Mongolian discourse markers are words , phrases and customary expressions which are in the meaning of sentence outside the sentence and can guide the comprehension of discourse . They are varied in shape and function , thus affecting the effect of syntactic analysis . Therefore , the study of Mongolian discourse markers has important theoretical significance and practical value . The main research contents are as follows : 1 ) Definition and classification of Mongolian discourse markers Mongolian discourse markers are a complex language phenomenon , which requires multi - level and multi - angle research and analysis of its definition and classification problems . This paper summarizes the features of Mongolian discourse markers , classifies the Mongolian discourse markers into 14 classes , and explains the pragmatic functions of each type of discourse marker . 2 ) Construction of Mongolian Film and TV Play Corpus In this paper , the author introduces the design of corpus , the collection of corpus and the organization structure of corpus . In this regard , the author introduces the design of corpus , the collection of corpus and the organization structure of corpus . 3 ) Automatic labeling and experimental analysis of Mongolian discourse markers The purpose of this study is to improve the accuracy of syntactic analysis and to provide coherent visualization information for discourse analysis . 4 ) Existing problems and solutions On the basis of the test results , the recall rate and accuracy rate are not very high , the reasons are mainly the following aspects . First , the rules are not high in recognition rate of word marks . Second , due to the limitation of the content , subject , scale and so on , the appearance frequency of the discourse marker affects the recall rate of the discourse marker . Third , the garbage string which does not meet the language facts affects the recall rate of the discourse marker . Fourth , the processing degree of the Mongolian video and television drama corpus seriously restricts the accuracy rate of the automatic labeling of the Mongolian discourse markers . In order to solve the above problems , we are ready to improve and perfect the system from the following aspects . First , expand the corpus of training set , make corpus more close to the language facts . Secondly , perfect the machine dictionary and increase the information content . Finally , add the statistical model to the rule - based algorithm . In conclusion , this paper studies the definition and classification of Mongolian discourse markers , the automatic labeling and experimental analysis of Mongolian discourse markers and the problems and solutions of Mongolian discourse markers in the research of discourse markers related theories and practices . Chapter One introduces the research results of the relevant theories and practices of the discourse markers at home and abroad , and the methods , significance and innovation points of this research . Chapter Three focuses on the design , representation and formation conditions of Mongolian discourse markers , the organization structure of Mongolian discourse markers and so on .

【学位授予单位】:内蒙古大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:H212

【参考文献】

相关期刊论文 前10条

1 黄大网;《语用学》杂志话语标记专辑(1998)介绍[J];当代语言学;2001年02期

2 王跃龙;姬东鸿;;汉语树库综述[J];当代语言学;2009年01期

3 黄大网;话语标记研究综述[J];福建外语;2001年01期

4 何自然,莫爱屏;话语标记语与语用照应[J];广东外语外贸大学学报;2002年01期

5 李勇忠,李春华;话语标记与语用推理[J];国外外语教学;2004年04期

6 于国栋,吴亚欣;话语标记语的顺应性解释[J];解放军外国语学院学报;2003年01期

7 冯志伟;自然语言处理的学科定位[J];解放军外国语学院学报;2005年03期

8 安娜,刘海涛,侯敏;语料库中熟语的标记问题[J];中文信息学报;2004年01期

9 周强;汉语句法树库标注体系[J];中文信息学报;2004年04期

10 雪艳;;关于用XML语言组织蒙古语语料库的设想[J];内蒙古大学学报(人文社会科学版);2006年01期

相关博士学位论文 前4条

1 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年

2 何婷婷;语料库研究[D];华中师范大学;2003年

3 刘丽艳;口语交际中的话语标记[D];浙江大学;2005年

4 林八鸽;《蒙古语连接形式知识库》的建设[D];内蒙古大学;2009年



本文编号:1514834

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/1514834.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b73f8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com