当前位置:主页 > 文艺论文 > 汉语言论文 >

面向信息处理的藏语同形异音词读音识别技术研究

发布时间:2020-05-17 21:38
【摘要】:现代藏语词语,从词的读音方面可分为异形同音词和同形异音词,而从词的意义方面分为同形异义词和异形同义词。其中同形异音词与多音词,同形异义词和多义词在藏语语言学界中具有一定的区别,但这些词汇在形态上具有一定的相似性。在经过语言本身的发展过程中,很多藏语词汇从词的意义和发音上都有很大的变化,这对当前藏语计算语言学的发展和研究带来了很大的困难。随着藏文信息处理的不断发展和逐步成熟,藏语语音合成方面的研究也开始进入深入研究的高峰期,从而藏语同形异音词的读音问题成为合成系统自然度和可懂度的主要障碍,而到目前为止鲜有对这方面的研究工作和相关报告,仍处于研究初级阶段。同时,藏语同形异音词与汉语中多音词的性质有所不同,仅仅依靠词典不一定能解决藏语同形异音词的歧义问题。因此,本文从藏语本身独有的语言规则和语音特点出发,依据《藏汉大词典》,在其所列出的常用藏语同形异音词的基础上,共收集整理了465个同形异音词,根据同形异音词在28万余句藏语文本中出现频率及不同读音的使用频率,最终挑选180个高频同形异音词作为本文研究中分析的主要对象。藏语中有不少词具有两种不同的读音,因读音的不同,有的词在语义上有细微的差异,有的词截然不同,这类词很容易引起误读或语义上的误解。本文在分析藏语字和词各种读法的基础上,从语音方面研究了同形异音词产生的原因。首先深度辨析了藏语同形异音词的构词形式、分类以及在藏语文本中出现的形式,系统地研究了当前在藏语TTS系统中同形异音词的根本来源,并探讨了因不同的读法而产生的语义及用法上的差异。根据分析结果,本文最终采用规则与统计建模相结合的方法,在实验条件较为完善的环境下,对180个高频同形异音词进行实验。实验结果证明,结合规则和统计方法的应用能够使系统取长补短,从而可以高效地解决当前在藏语语音合成中同形异音词的读音识别难点,并取得了较好的识别效果。同时根据初始的实验结果,对剩下的285个不常用的同形异音词也进行了分析及测试实验。最终结果表明,该方法在藏语同形异音词读音识别领域具有一定的通用性,为语音合成系统的前端文本分析模块提供了有力依据。对其他藏语语言学理论研究方面也具有一定的借鉴意义。本文针对当前在藏语语音合成中的一项突出问题,首次展开研究了藏语TTS系统前端文本分析中藏语同形异音词的读音消歧问题,并将基于CRF模型的日本文本分析器Mecab系统首次运用在藏语文本分析中。Mecab系统内部的模块设计清晰、简单,同时藏文和日文具有类似的分词和标注需求,因此Mecab系统对于藏文文本处理来说有着很好的借鉴价值。
【图文】:

音节结构,藏文


音声韵调描述体系藏语系-藏缅语族,有卫藏、安多、康巴三大方言,但是很多的发音变化[15]。据最新分析统计,可覆盖音变及普通 个声母,123 个韵母。关于拉萨话声调的分类有多种观点说”,即 4 个调型[16]。一个辅音字母“基字”为核心的拼音文字,可视为基本字字符串,,由 30 个辅音字母和 4 个元音字母组成。从信息于“复杂文字”(Complex Scripts)的范畴[17],Unicode 0x0FFF 。藏文音节字的组成部件如图 1-1 所示:

实验数据,句子,语料,原始语


2.2 语料来源本文主要在西藏日报(藏文版)和中国西藏新闻网(藏文版)等一些不同文网站上收集了含有法律、新闻类、教育类、医学类、诗歌类、文学类等不同域中具有代表性的语料共 37 万多个相对独立的句子。同时还考虑了文献的年地域等问题,经过自动过滤和人工校对将太长和太短、不完整的句子以及含有常用的梵文的句子去除后剩 28 万多句子。其中还有一些语料是从词典例句及常生活中常用的语句,形成了原始语料。然后利用贪婪(greedy)算法进行筛选从 28 万多原始语料中挑选出含有 465 个同形异音词的句子共 92229 句,最终取最大覆盖藏语同形异音词的精炼语料共 35890 句作为训练数据及测试集,本实验数据的具体构成情况及数量统计结果如下图 2-1 所示。
【学位授予单位】:西藏大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:H214

【相似文献】

相关期刊论文 前10条

1 陈倩;;谈谈俄语中常见的同形异音词[J];中学俄语;2016年10期

2 赵京光;林远;史久民;;350mW发电机异音原因分析及处理[J];科技传播;2012年12期

3 王洪图;浅析发动机的异音诊断[J];农业机械化与电气化;2000年04期

4 ■玉宪和,王冰;发动机异音及其改善[J];山东内燃机;1998年02期

5 朱泉;滚动轴承异音的故障诊断[J];中国设备管理;1999年08期

6 姚国柱;怎样判断机动车的异音[J];农业机械化与电气化;1994年03期

7 李光辉;发动机异音的诊断[J];山东农机化;1995年08期

8 李学金;;关于英词同形异音词的几个问题[J];广西医学院学报;1993年S1期

9 潘小涛;;辅助电机轴承异音的原因及处理[J];机车电传动;1993年03期

10 黄绮;;异词异音[J];语文学习;1954年11期

相关会议论文 前10条

1 宋瑞春;;机车螺杆式空气压缩机异音原因分析及改进措施[A];郑州铁路局“十百千”人才培育助推工程论文集[C];2011年

2 林竹;吴空;;变频电子膨胀阀空调冷媒流动异音分析研究[A];第十一届全国电冰箱(柜)、空调器及压缩机学术交流大会论文集[C];2012年

3 林竹;吴空;;变频电子膨胀阀空调制冷剂流动异音分析研究[A];2012年中国家用电器技术大会论文集[C];2012年

4 张军;李云云;王震;张红敏;;浅析一起220kVGIS断路器异音原因[A];山东电机工程学会2012年度学术年会论文集[C];2012年

5 王鑫;王飞;刘伟彤;周宝娟;;空调常见噪声及解决措施的探讨[A];2013年中国家用电器技术大会论文集[C];2013年

6 许延飞;吴建强;张明旭;赵红宇;张华中;;柴油汽车离合器怠速异音的原因分析及应对措施[A];自主创新、学术交流——第十届河南省汽车工程科学技术研讨会论文集[C];2013年

7 李富营;;励磁变压器振动及铁心温升异常故障的分析及处理[A];广东省水力发电工程学会论文集[C];2009年

8 周启澄;;中国人应对困难的宝贵历史经验——坚持“中”与“和”[A];2006年上海市科学技术史学术年会论文集[C];2006年

9 江俊;方忠诚;;时域分析在冰箱异音检测中的应用[A];2013年中国家用电器技术大会论文集[C];2013年

10 武国良;;直流式手电钻行星齿轮组的研制[A];安徽省机械工程学会成立50周年论文集[C];2014年

相关重要报纸文章 前3条

1 记者 郑有胜;阜新“小钢球”收编韩国老字号[N];辽宁日报;2010年

2 湖南省宁乡县县长 黎石秋;以“不同”促和谐[N];中国社会报;2008年

3 李鹏舟;改革最是检验党性时[N];战士报;2015年

相关硕士学位论文 前10条

1 拉巴顿珠;面向信息处理的藏语同形异音词读音识别技术研究[D];西藏大学;2018年

2 施健升;百龙滩水电厂#1发电机组异音测试研究[D];广西大学;2007年

3 李明超;基于异音检测的电机故障诊断方法[D];五邑大学;2014年

4 张建梅;蒙古文同形异音词的读音识别研究[D];内蒙古大学;2005年

5 刘力源;基于机器学习方法的电机异音检测研究[D];五邑大学;2014年

6 罗文洁;《现代汉语词典》中的多音节异音同形词分析[D];曲阜师范大学;2007年

7 续超;句子语境中汉语同形异音词的歧义消解[D];辽宁师范大学;2017年

8 关帅;基于激光测量的扬声器异音故障检测方法研究[D];天津科技大学;2012年

9 仇漫漫;汉语自闭症儿童同形异音异义词识别研究[D];南京师范大学;2015年

10 王青松;基于能量算子解调法的滚动轴承故障诊断技术研究[D];重庆大学;2004年



本文编号:2669219

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/2669219.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3de9a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com