藏语分词与词性标注研究
发布时间:2017-05-01 11:03
本文关键词:藏语分词与词性标注研究,由笔耕文化传播整理发布。
【摘要】:藏语信息处理技术经过二十多年的发展,无论是在藏文信息处理研究及其相关标准制定方面,还是在藏语信息处理应用开发方面,都取得了不少成绩。藏语信息处理技术也逐步迈入到语言信息处理层面。虽然藏语信息处理研究在技术上紧跟着英汉语等之后,但作为信息处理研究基础的语料资源相对贫乏。公开的藏语语料库都是未标注的生语料库,其应用价值非常有限。由于对藏语的本体研究不够深入,许多对藏语信息处理有价值的属性未能挖掘和描述出来,因而限制了藏语信息处理技术的发展和应用范围。针对以上问题,本文采用了多种统计模型和方法来进行藏语分词和词性标注研究,并取得了以下几个方面的主要成果: 一、提出了基于词位的藏语分词方法,在国内外较早地将藏语黏写形式的特征融合到藏语分词研究当中。 我们采用了基于词位的统计方法来处理藏语分词问题,将藏语分词转化为序列标注问题,实现了一个藏语分词系统。该系统采用条件随机场模型,针对藏语黏写形式的语法特征,将汉语分词中常用的四词位标签集改进为更适合藏语特点的六词位标签集,并使用100万余经人工反复校对的语料对模型进行训练。经实验测试,在大规模真实语料的测试中,系统的开放测试F值达到了91%,分词性能基本上令人满意。在进一步的研究中,我们经分析发现分词精度主要受到了藏语黏写形式识别结果的限制。考虑到黏写形式的复杂多样,我们在总结前人的研究成果的基础上,加入了基于规则的后处理环节,最终的测试结果F值达到了95%以上,已能满足藏语语料库建设的实际需求。 二、在藏语分词研究的基础上,根据藏族人名特征探讨了藏语人名识别方法。 通过研究藏语人名的特点,我们总结了藏语人名识别的多种策略并最终选择了基于统计的方法来实现藏语人名的识别。我们基于条件随机场模型,通过使用名字边界、前后缀、上下文等特征,给出了藏文人名识别的一种方法。最终实验系统在开放测试中取得的F值达到了91.26%。虽然未能进一步发掘名字与普通词语同形这一极易导致歧义现象的特征,导致系统识别性能未能达到十分理想的效果,但可以通过对特征标签集进行调整,同时优化特征模板集,进一步提高识别效果。 三、综合使用了多种统计模型实现了藏语词性标注研究,,在国内外首次采用最大熵结合条件随机场模型实现了藏语的词性标注方法。 通过对藏语词性的研究,在满足基本的词法分析的需求下,我们将藏语词类标记集精简到统计模型切实可用的规模,然后选择最大熵模型构建了一个藏语词性标注系统,并采用小规模的语料进行训练。实验结果显示,在小规模语料训练下,基于最大熵的词性标注系统达到了87.76%的准确率,已基本接近词法分析可用的要求。 在最大熵模型的基础上,我们提出了基于条件随机场的修正模型。该模型在最大熵模型的输出结果上进行训练,从而可以将最大熵模型中次优结果和再次优结果中的正确标注挑选出来,提高词性标注的准确率。实验证明,采用同样规模的训练语料和测试语料,最大熵结合条件随机场的词性标注模型达到了89.12%的准确率,已接近同类汉语词性标注系统的水平。 四、实现了一种基于条件随机场的藏语分词标注一体化模型,将分词和词性标注整合到一个统一的系统中,为藏语词法分析提供了新的解决途径。 我们充分利用了分词与词性标注间更深层次的依赖关系,在一体化模型中利用词性信息来处于分词过程中遇到的歧义问题。在较小的训练语料规模下,藏语分词标注一体化模型在开放测试中分词结果的F值达到了89.0%,这表明一体化模型将词位信息和所属词的词性信息很好的结合起来,能更有效的提高分词精度,其分词效果已基本可以满足语料库对自动分词的需求。一体化模型的词性标注准确率也达到了85.35%,虽然还稍稍落后于独立的词性标注模型,但通过扩大模型的训练语料规模,词性标注性能应该可以取得一定程度的提升。
【关键词】:藏语黏写形式 藏语分词 条件随机场模型 藏语人名识别 藏语词性标注 最大熵模型 分词标注一体化
【学位授予单位】:上海师范大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:H214
【目录】:
- 中文摘要4-6
- Abstract6-10
- 表格目录10-11
- 插图目录11-12
- 第一章 绪论12-21
- 1.1 研究背景与意义12-13
- 1.2 研究历史和现状13-19
- 1.3 研究内容和方法19-21
- 第二章 藏语概述21-28
- 2.1 藏族语言和文字21-22
- 2.2 藏语文本特点22-28
- 第三章 藏语分词研究28-53
- 3.1 引言28
- 3.2 藏语分词的难点28-31
- 3.3 藏语分词规范研究31-40
- 3.4 基于词位的藏语分词方法40-52
- 3.5 本章小结52-53
- 第四章 藏语人名识别研究53-63
- 4.1 引言53
- 4.2 藏族人名的结构及特点53-55
- 4.3 藏语人名的识别策略55-57
- 4.4 基于词位的藏语人名识别方法57-61
- 4.5 本章小结61-63
- 第五章 藏语词性标注研究63-85
- 5.1 引言63
- 5.2 藏语词类标记集研究63-66
- 5.3 基于最大熵模型的藏语词性标注66-77
- 5.4 最大熵结合条件随机场的藏语词性标注77-84
- 5.5 本章小结84-85
- 第六章 藏语分词标注一体化研究85-95
- 6.1 分词标注一体化的理论基础85-86
- 6.2 基于统计的分词标注一体化研究86-94
- 6.3 本章小结94-95
- 第七章 结语95-100
- 7.1 取得的主要成果95-97
- 7.2 进一步的工作与展望97-100
- 后记100-102
- 参考文献102-108
- 攻读学位期间的研究成果108
【参考文献】
中国期刊全文数据库 前10条
1 窦嵘;加羊吉;黄伟;;统计与规则相结合的藏文人名自动识别研究[J];长春工程学院学报(自然科学版);2010年02期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 朱聪慧;赵铁军;郑德权;;基于无向图序列标注模型的中文分词词性标注一体化系统[J];电子与信息学报;2010年03期
4 扎西多杰;安见才让;;基于HMM藏文词性标注的研究与实现[J];计算机光盘软件与应用;2012年12期
5 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
6 洪铭材;张阔;唐杰;李涓子;;基于条件随机场(CRFs)的中文词性标注方法[J];计算机科学;2006年10期
7 佟晓筠;宋国龙;刘强;张俐;姜伟;;中文分词及词性标注一体化模型研究[J];计算机科学;2007年09期
8 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
9 王敏;郑家恒;;基于改进的隐马尔科夫模型的汉语词性标注[J];计算机应用;2006年S2期
10 邱莎;段玻;申浩如;丁海燕;;基于条件随机场的中文人名识别研究[J];昆明学院学报;2011年06期
本文关键词:藏语分词与词性标注研究,由笔耕文化传播整理发布。
本文编号:338761
本文链接:https://www.wllwen.com/shoufeilunwen/rwkxbs/338761.html