构建托忒文语料库及其相关技术研究

发布时间:2018-10-29 09:52
【摘要】:构建托忒文语料库、并研发相关应用程序是建设《蒙古语语言资源平台》工作中的重要部分,也是将托忒文文献数字化,实现资源共享的基础。目前托忒文文献数字化工作中亟待解决的问题是改进和完善它的编码系统。此项研究在已有的托忒文编码基础上,深层次,全面地反映了托忒文中应有的编码体系。目前,搜集和整理的托忒文语料库包括以下两个方面的内容:一是以英雄诗《江格尔》为例的新托忒文语料库;二是以文献为例的经典托忒文语料库。该语料库中对比不同时期的托忒文特征,并概括了已有的托忒文编码体系中应增加的《名义字符》、《变形显现字符》、《强制性合体字》和《非强制性合体字》。该论文内容概括为以下几个方面:导论中主要阐述了研究对象、以往的研究概况、选题依据、选题意义和目的、研究理论方法,资料的选择范围以及论文结构。其中以往的研究内容涉及到三个方面:(1)初学托忒文字母抄本;(2)托忒文研究成果;(3)在信息化领域中使用托忒文的趋势。第一章,详细地介绍了托忒文编码体系。(1)探讨了以往的托忒文编码体系中应增加的字符和标点符号:国内主要研发单位是内蒙古蒙科立软件有限责任公司、北京北大方正电子有限公司、潍坊北大青鸟华光照排有限公司和内蒙古大学计算机学院;国外主要开发国家是蒙古和日本。(2)介绍了研发《托忒文编码国家标准》过程:这里系统地列出了已有的方正托忒文编码体系中应增加的“名义字符”、“变形显现字符”、“强制性合体字”、“非强制性合体字”、“数字”、“标点符号”和“控制符”。(3)阐述了有关《托忒文编码国家标准的系统实现问题:托忒文名义字符到变形显现字符的转换规则。(4)阐述了关于托忒文中使用控制符的规则。第二章,重点介绍了托忒文文献语料库概况。首先介绍了托忒文文献总论、收藏地区、统计目录和搜集工作的进展情况。其次介绍了托忒文拉丁转写方案的依据和使用目的。第三,介绍了托忒文文献语料库相关工作。(1)构建托忒文文献信息数据库;(2)托忒文文献语料库由文本库(拉丁转写)和图片库(扫描文件)组成。最后,简单介绍了中世纪文献语料库“回鹘式蒙古文文献语料库”、“八思巴文文献语料库”和“托忒文文献语料库”之间如何连接问题。这里提到了两种方法的优点和缺点。一是以字母为单位,制定三种文字共用拉丁转写方案来实现;二是以词语为单位,研制三种文字词语对照电子词典来实现。第三章,简单介绍了托忒文文献语料库应用程序的开发步骤。针对今天互联网技术的普及和移动终端的广泛使用主流,研发该应用程序是采用了跨平台、开源代码和广泛使用的PHP+MySQL+Apache组合。在此基础上,详细介绍了数据库设计方案、程序流程图和应用界面。托忒文文献查询程序的主要功能是从数据库中查询单词,词语等元素,并获得的结果是文本块和图片。第四章,详细介绍了以新托忒文为例的“江格尔语料库”的加工和它的应用方法。论文中以借鉴信息抽取技术为指导,构建了针对“江格尔语料库”的命名实体字典。此外,为了扩充“江格尔语料库”的规模,初步构建了托忒文、传统蒙古文和西里尔文的词语对照电子词典,目前已收录2,526条词条。最后,介绍了“江格尔语料库”应用程序的设计和实现。
[Abstract]:It is also an important part in the construction of the language resource platform of Mongolian language, which is the basis for the digitization of the document and the realization of resource sharing. At present, the problems that need to be solved in the digital work of Toledo document are to improve and perfect its coding system. This study, on the basis of the existing underpinning code, deeply and comprehensively reflects the coding system in Toledo. Currently, the collection and arrangement of the Tortotext corpus includes the following two aspects: one is the new tolevwen corpus in the heroic poem as an example; the second is the classical Tortotext corpus in the literature as an example. In this corpus, we compare the characteristics of tolevels in different periods, and summarize the characters of , , and in the existing Toledo coding system. The contents of this paper are summarized as follows: The introduction mainly expounds the research object, the previous research situation, the subject choice basis, the significance and purpose of the topic selection, the research theory method, the selection range of the data and the structure of the paper. Among them, the previous research contents relate to three aspects: (1) the first letter copy; (2) the research results of Toledo; (3) the trend of using tolevwen in the field of informatization. In the first chapter, the coding system of Toledo is introduced in detail. (1) It discusses the characters and punctuation marks that should be added in the previous Toledo coding system: the main R & D unit in China is Monkli Software Co., Ltd. of Inner Mongolia, Beijing Beida Founder Electronics Co., Ltd. Beijing Peking University Green Bird Huaguang Group Co., Ltd. and University of Maryland Computer College; the major developing countries in foreign countries are Mongolia and Japan. (2) The national standard of R & D 【学位授予单位】:内蒙古大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:H212

【相似文献】

相关期刊论文 前10条

1 波·包力高;《托忒文简明正字法》读后感——纪念托忒蒙文创制350周年[J];新疆大学学报(哲学社会科学版);1999年02期

2 乌兰;从史料学的角度谈托忒文历史文献[J];西北民族研究;2003年01期

3 M·乌兰;托忒文历史文献对清朝官方史籍编纂的影响[J];清史研究;2004年03期

4 叶尔达;;中国藏托忒文文献刻本之研究[J];西北民族大学学报(哲学社会科学版);2007年02期

5 额尔德尼巴雅尔;;托忒文研究概述[J];蒙古学资料与情报;1989年04期

6 M·乌兰;;托忒文历史文献对西方史学的影响——以帕拉斯《内陆亚洲厄鲁特历史资料》为中心[J];民族研究;2011年03期

7 ;蒙古文、托忒文、锡伯文(含满文)编码方案──我国提出的这一方案已被国际标准化组织接受[J];内蒙古大学学报(哲学社会科学版);1994年03期

8 诺尔布;冯锡时;;托忒文历史文献的汉译注释[J];新疆大学学报(哲学社会科学版);1986年02期

9 M·乌兰;试论托忒文历史文献的史料价值[J];民族研究;1993年04期

10 ;[J];;年期

相关博士学位论文 前2条

1 孟克代力格日;构建托忒文语料库及其相关技术研究[D];内蒙古大学;2016年

2 赛尔格;托忒文及其历史演变研究[D];内蒙古大学;2016年

相关硕士学位论文 前2条

1 萨如拉;托忒文阿里嘎礼研究[D];内蒙古大学;2014年

2 孟克代力格日;托忒文文献语料库及其管理程序设计[D];内蒙古大学;2011年



本文编号:2297361

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/rwkxbs/2297361.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户aacbc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com