面向汉语辞书编纂的大型通用语料库构建研究
发布时间:2017-11-24 22:02
本文关键词:面向汉语辞书编纂的大型通用语料库构建研究
【摘要】:本文通过对国外面向辞书编纂的语料库成功经验的学习,结合我国语言研究和辞书编纂的实际,选取适合我国语料库建设的方法和途径,制定出一个大型通用的语料库建设方案。论文共分六章,各章节的内容安排如下: 第一章绪论。主要介绍了国内外语料库建设的研究现状,并明确了我们建设语料库的意义和价值,以及研究方法和研究思路。国外对于语料库建设早有研究,且已有较为丰富的理论成果和完整科学的系统结构;而我国对于语料库建设的研究起步较晚,同时基本上还局限于专用型语料库,适用范围较小,只为特定词典编纂服务。因而在我国词典学领域急需一个面向汉语辞书编纂的大型通用语料库。它有助于填补了汉语辞书理论的空白,推进中文信息处理的发展,提高辞书编纂的客观性、准确性和科学性。 第二章面向汉语辞书编纂的大型通用语料库的设计理念。在Chomsky的理性主义占主导地位的二十世纪中后期,语料库研究方法深得人心。随着WordNet、知网、FrameNet的成功建立,关于大型通用型语料库的设计理念也浮出水面。我们要建立的面向汉语辞书编纂的大型通用语料库的设计理念是大规模和多语体、深度加工和监控语料库。 第三章面向汉语辞书编纂的大型通用语料库的语料采集。语料的采集是建设语料库的一个重要环节,我们先回顾了COBUILD语料库、朗文语料库网络、英国国家语料库、剑桥国际语料库、Sinica语料库五个语料库在语料采集时的成功经验,结合我国实际,明确了面向汉语辞书编纂的大型通用语料库的语料采集分五种语体:口语、小说、新闻、杂志和学术期刊,每种体裁所占比例均为20%。各收7千万字左右,计划建成一个3.5亿字左右的大型通用语料库。 第四章面向汉语辞书编纂的大型通用语料库的语料加工处理。我们采用XML格式将文本收录进语料库,对每篇文章的类别、来源、作者、出版时间、标题和正文内容这些信息加以标注。分词系统选择,,采用北京大学计算语言学研究所研制的汉语语料库多机加工系统;词语切分与词性标注,采用北京大学2003版词语切分和词性标注规范(俞士汶等,2003)的标准;词法标注,采用最大匹配法;句法标注,采用邱立坤(2012)提出的依存句法的标注体系规范;语义标注,采用Mel’ uk等人创立的语义-篇章理论。 第五章面向汉语辞书编纂的大型通用语料库的功能。管理功能、检索功能、统计功能、词义更新功能、辅助释义功能。第六章结论。对本文的研究工作进行了总结,指出了进一步研究的方向。
【学位授予单位】:鲁东大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:H16
【参考文献】
中国期刊全文数据库 前9条
1 陆汝占;汉语词典编纂一体化环境(上)[J];辞书研究;2000年02期
2 王跃龙;姬东鸿;;汉语树库综述[J];当代语言学;2009年01期
3 丁信善;语料库语言学的发展及研究现状[J];当代语言学;1998年01期
4 杨翼;李绍林;郭颖雯;田清源;;建立汉语学习者口语语料库的基本设想[J];汉语学习;2006年03期
5 李斌;;中介语语料库建设中的语言错误标注方法[J];暨南大学华文学院学报;2007年03期
6 俞士汶,段慧明,朱学锋,孙斌;北京大学现代汉语语料库基本加工规范[J];中文信息学报;2002年05期
7 蔡莲红;崔丹丹;蔡锐;;汉语普通话语音合成语料库TH-CoSS的建设和分析[J];中文信息学报;2007年02期
8 刘耀;段慧明;王惠临;周扬;王振国;李宏展;;中医药古文献语料库设计与开发研究[J];中文信息学报;2008年04期
9 赵守辉;刘永兵;;新加坡华族学前儿童口语语料库的生成[J];世界汉语教学;2007年02期
本文编号:1223719
本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/1223719.html