当前位置:主页 > 科技论文 > 搜索引擎论文 >

信息处理用藏语谚语语料库构建研究

发布时间:2018-11-24 08:22
【摘要】:本文首先以收集整理录入的方法,以安多、康巴、卫藏三大方言藏语谚语及《格萨尔谚语》为基础,建立了藏语谚语语料库,并对语料进行自动分词和人工校对,确定谚语词汇切分原则,从而构建了藏语谚语语料库及分词库。在内容上将藏族谚语按相关文献的基础上再细分为十二种类型。在搜集整理的过程中,谚语在形式的划分上新增加至三十二种。从谚语中词条数量分布、词汇的频度和频率三方面对《藏语谚语》进行了研究。最后根据藏族三大地区方言藏汉对照、按字母顺序排序和内容分类三种方法分别进行排序和检索。其作用主要应用于两个方面:一是作为计算机藏文信息处理系统的藏语谚语语料库构建,为藏文信息处理服务。二是作为藏语文学习的工具书及藏语谚语词语研究的基本资源,供藏语文学习者和研究者使用。本文的研究目的在为未来藏文信息处理领域中的句法分类标注、自动分词、句法研究、短语研究、机器翻译、搜索引擎、电子词典编纂等方面做基础工作;为今后藏族文学研究提供了一种新的研究方法和手段。其创新点在于:一是搜集整理了大量零散的藏语谚语,到目前为止是整理最多的;二是针对计算机信息处理进行了分类及标注;三是建立了藏语谚语双语对照语料库;四是对藏语谚语构建了检索程序,为今后学习、研究双语教学提供了便利条件。下一步的工作是把所搜集整理的藏语谚语词条进行翻译;在混合排序中,把内容、形式、段落和音节停顿的标注在点击相关词条时可同时在该词条中出现,是进一步学习和研究的任务。本文认为构建高质量的藏语谚语库不仅能够更好的掌握和利用藏语谚语这块瑰宝,为研究藏语言文学领域提供不可或缺的语言材料,从而也扩充藏语自然语言处理相关文本资料库。
[Abstract]:Based on Tibetan proverbs and Gesar proverbs in Ando, Kangba and Weizang dialects, the corpus of Tibetan proverbs is established, and the corpus is automatically partitioned and artificially proofread. The principle of lexical segmentation of proverbs is established, and the corpus and thesaurus of Tibetan proverbs are constructed. Tibetan proverbs are subdivided into twelve types on the basis of relevant literature. In the process of collecting and sorting, proverbs have been added to 32 kinds of forms. This paper studies Tibetan proverbs from the following three aspects: number distribution of proverbs, frequency and frequency of vocabulary. Finally, according to Tibetan dialect Tibetan and Chinese contrast, according to alphabetical order and content classification three methods respectively sort and search. Its function is mainly applied in two aspects: the first is the construction of Tibetan proverbs corpus as a computer Tibetan information processing system to serve Tibetan information processing. Second, as the reference book of Tibetan language learning and the basic resource of Tibetan proverbs study, it is used by Tibetan language learners and researchers. The purpose of this paper is to do some basic work in the field of Tibetan information processing, such as syntactic classification and tagging, automatic word segmentation, syntactic research, phrase research, machine translation, search engine, electronic dictionary compilation and so on. It provides a new research method and means for Tibetan literature research in the future. The innovation lies in the following aspects: first, collecting and sorting out a large number of scattered Tibetan proverbs, up to now, most; second, classifying and tagging the computer information processing; third, establishing a bilingual comparative corpus of Tibetan proverbs; Fourth, the retrieval program of Tibetan proverbs is constructed, which provides convenient conditions for future study and study of bilingual teaching. The next step is to translate the Tibetan proverbs. In mixed sorting, the tagging of content, form, paragraph and syllable pause can appear at the same time when clicking the relevant entry, which is the task of further study and research. This paper holds that the construction of a high-quality Tibetan proverbs database can not only better grasp and utilize the treasure of Tibetan proverbs, but also provide indispensable language materials for the study of Tibetan language and literature. Thus also expand the Tibetan natural language processing related text database.
【学位授予单位】:西北民族大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:H214

【相似文献】

相关期刊论文 前8条

1 梁社会;陈小荷;;先秦文献《孟子》自动分词方法研究[J];南京师范大学文学院学报;2013年03期

2 徐艳华;;新词语结构分析在自动分词中的作用[J];烟台职业学院学报;2007年04期

3 程节华;自动分词中的歧义字段分析及处理[J];安徽农业技术师范学院学报;2000年03期

4 李迅;;自动分词与分词规范——关于《信息处理现代汉语分词规范》的重新思考[J];山东文学;2010年01期

5 殷峰,何克抗;语句级拼音┐汉字转换系统的设计与实现[J];计算机研究与发展;1997年05期

6 葛伟;;从计算机自动分词的障碍谈汉语书面语改革[J];语文学刊;2008年02期

7 祁坤钰;;信息处理用藏文自动分词研究[J];西北民族大学学报(哲学社会科学版);2006年04期

8 ;[J];;年期

相关会议论文 前7条

1 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

2 郑泽之;;中文自动分词的一些问题[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

3 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

4 黄昌宁;林娟;孙承杰;;何谓金本位[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

5 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年

6 刘怀t,

本文编号:2352964


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2352964.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3224d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com