当前位置:主页 > 科技论文 > 搜索引擎论文 >

藏文词性自动标注系统的研究与实现

发布时间:2020-08-06 18:11
【摘要】:藏文词性标注是藏文信息处理技术中的一项基础性课题,它的研究成果不仅为机器翻译、搜索引擎、网络信息安全等诸多领域的研究奠定基础,也是藏文信息处理后续句法分析、语义分析及篇章分析必不可少的前提条件。藏文词性标注的研究是自然语言理解的一项重要工作。因此,研究和实现藏文词性自动标注系统具有重要的理论意义和实用价值。 本文首先概要地介绍了藏文词性标注的研究意义和目的,回顾了词性标注在国内外的研究现状;作为藏文词性标注的基础,研究了藏文分词常用的方法、分词中歧义和未登录词识别问题的处理,并提出了基于“动词优先切分”、“拆分+进字组合法”等方法,消解藏文分词中的交集型歧义问题;通过藏文“词缀归并”和“分词碎片整合”及“词性信息修正分词法”等方法,解决了藏文分词中未登录词识别问题,使藏文分词正确率有了较大的提高。在此基础上,研究了藏文词性知识库及藏文语料库的建立;最后采用基于规则和统计相结合的方法设计和实现了一个藏文词性自动标注系统。 为了实现藏文词性标注系统,对常用的藏文词典《藏汉大辞典》、《新编藏文词典》、《藏文动词词典》九万余词条经合并、去重、筛选整理后对七万余词条完成词性标注,建立了词性知识库;以藏文文学、民俗、历史、小学藏文教材为取材,整理后精选12万余字的语料完成人工词性标注,并以此为统计数据信息来源,通过隐马科夫模型(HMM)训练语料统计,获取所需的词汇概率和词性转移概率建立了语言模型。 本论文采用简单有效的给定最小值平滑算法解决了统计中产生的数据稀疏问题,有效地避免了因数据稀疏问题带来的正确率下降的问题。最后采用Viterbi算法选取词性标注序列中的最优序列。 本论文不仅系统地研究了藏文的分词及词性标注理论,解决了藏文分词中未登录词的识别及歧义消解;建立词性知识库和人工标注语料;解决了藏文词性自动标注中兼类词的处理,而且用程序设计实现了一个藏文词性标注系统,经测试本系统对开放语料的词性标注正确率达89.56%,封闭测试语料的标注正确率达95.09%。
【学位授予单位】:西藏大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:H214
【图文】:

藏文词性自动标注系统的研究与实现


藏文分词系统处理流程图

自动分词,藏文,交集型歧义


从表 2-2 中我们可以发现,交集型歧义处理前后比较,分词的正确率有了大幅度的提高,交集型歧义处理后分词正确率在原有的基础上提高了 4.02%。2.7.3 藏文自动分词总体性能测试1、测试说明为了更好地评价藏文自动分词系统的性能,分词正确率可用以下公式计算: 100%语料总词次数切分结果中正确词次数分词正确率测试2、测试结果本论文以藏文文学、历史、民俗、网页新闻、小学藏文教材为取材,精选 12万余字的语料完成自动分词测试,结果如图 2-5 所示:分词正确率 88.61% 92.63%

语料库,藏文,词性,兼类词


3.2.3 本论文使用的语料笔者以藏族文学、民俗、历史等为取材整理后精选 12 万余字的藏文文本,对其逐词完成标注后形成本论文实验用的标注语料库。其部分内容截图如图3-1所示:图 3-1 语料库截图3.3 藏文兼类词的特点在藏文中,词性的兼类现象普遍存在,尤其是藏文中出现频率极高的格助词兼类给藏文词性标注带来了很大困难。论文从标注语料中对藏语文本中兼类词特点及现象做了具体的统计分析。如:(例子来源《藏汉大词典》14)(1) ①有 (起立、竖立)之意,例如: (毛发悚立)②有 (纷乱、不平静)之意,例如: (心不平静),上例①中“ ”的词性为动词,但②中“ ”的词性为形容词。所以“ ”14张怡荪主编.《藏汉大辞典》,北京:民族出版社,1993

【参考文献】

相关期刊论文 前10条

1 陈玉忠,俞士汶;藏文信息处理技术的研究现状与展望[J];中国藏学;2003年04期

2 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期

3 王达;崔蕊;;数据平滑技术综述[J];电脑知识与技术;2009年17期

4 蔡勇智;;未登录词识别算法的改进[J];福建电脑;2006年03期

5 赵秦怡;王丽珍;;一种基于互信息的串扫描中文文本分词方法[J];情报杂志;2010年07期

6 李荣;郑家恒;;一种改进Viterbi算法的应用研究[J];计算机工程与设计;2007年03期

7 丁振国;张卓;黎靖;;基于Hash结构的逆向最大匹配分词算法的改进[J];计算机工程与设计;2008年12期

8 董晓华;邓霞;薄会娟;刘冀;李英海;;平滑最小值法与数字滤波法在流域径流分割中的应用比较[J];三峡大学学报(自然科学版);2010年02期

9 张恒;杨文昭;屈景辉;卢虹冰;张亮;赵飞;;基于词典和词频的中文分词方法[J];微计算机信息;2008年03期

10 祁坤钰;;信息处理用藏文自动分词研究[J];西北民族大学学报(哲学社会科学版);2006年04期

相关会议论文 前1条

1 陈玉忠;李保利;俞士汶;兰措吉;;基于格助词和接续特征的藏文自动分词方案[A];第一届学生计算语言学研讨会论文集[C];2002年

相关硕士学位论文 前4条

1 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年

2 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年

3 王莹;基于错误驱动的汉语词性标注研究[D];北京邮电大学;2007年

4 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年



本文编号:2782779

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2782779.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ce1a9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com