藏文词性自动标注系统的研究与实现
【学位授予单位】:西藏大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:H214
【图文】:
藏文分词系统处理流程图
从表 2-2 中我们可以发现,交集型歧义处理前后比较,分词的正确率有了大幅度的提高,交集型歧义处理后分词正确率在原有的基础上提高了 4.02%。2.7.3 藏文自动分词总体性能测试1、测试说明为了更好地评价藏文自动分词系统的性能,分词正确率可用以下公式计算: 100%语料总词次数切分结果中正确词次数分词正确率测试2、测试结果本论文以藏文文学、历史、民俗、网页新闻、小学藏文教材为取材,精选 12万余字的语料完成自动分词测试,结果如图 2-5 所示:分词正确率 88.61% 92.63%
3.2.3 本论文使用的语料笔者以藏族文学、民俗、历史等为取材整理后精选 12 万余字的藏文文本,对其逐词完成标注后形成本论文实验用的标注语料库。其部分内容截图如图3-1所示:图 3-1 语料库截图3.3 藏文兼类词的特点在藏文中,词性的兼类现象普遍存在,尤其是藏文中出现频率极高的格助词兼类给藏文词性标注带来了很大困难。论文从标注语料中对藏语文本中兼类词特点及现象做了具体的统计分析。如:(例子来源《藏汉大词典》14)(1) ①有 (起立、竖立)之意,例如: (毛发悚立)②有 (纷乱、不平静)之意,例如: (心不平静),上例①中“ ”的词性为动词,但②中“ ”的词性为形容词。所以“ ”14张怡荪主编.《藏汉大辞典》,北京:民族出版社,1993
【参考文献】
相关期刊论文 前10条
1 陈玉忠,俞士汶;藏文信息处理技术的研究现状与展望[J];中国藏学;2003年04期
2 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
3 王达;崔蕊;;数据平滑技术综述[J];电脑知识与技术;2009年17期
4 蔡勇智;;未登录词识别算法的改进[J];福建电脑;2006年03期
5 赵秦怡;王丽珍;;一种基于互信息的串扫描中文文本分词方法[J];情报杂志;2010年07期
6 李荣;郑家恒;;一种改进Viterbi算法的应用研究[J];计算机工程与设计;2007年03期
7 丁振国;张卓;黎靖;;基于Hash结构的逆向最大匹配分词算法的改进[J];计算机工程与设计;2008年12期
8 董晓华;邓霞;薄会娟;刘冀;李英海;;平滑最小值法与数字滤波法在流域径流分割中的应用比较[J];三峡大学学报(自然科学版);2010年02期
9 张恒;杨文昭;屈景辉;卢虹冰;张亮;赵飞;;基于词典和词频的中文分词方法[J];微计算机信息;2008年03期
10 祁坤钰;;信息处理用藏文自动分词研究[J];西北民族大学学报(哲学社会科学版);2006年04期
相关会议论文 前1条
1 陈玉忠;李保利;俞士汶;兰措吉;;基于格助词和接续特征的藏文自动分词方案[A];第一届学生计算语言学研讨会论文集[C];2002年
相关硕士学位论文 前4条
1 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
2 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
3 王莹;基于错误驱动的汉语词性标注研究[D];北京邮电大学;2007年
4 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
本文编号:2782779
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2782779.html