基于HMM的臧语安多方言语音合成的研究

发布时间：2020-08-17 14:57

【摘要】：随着人工智能的发展,计算机语音合成的研究已经很普遍。但是让计算机说话的语音合成技术,较多应用于汉语、英语、日语等。对于一些古老少数民族的语音合成技术仍然落后。藏语安多方言的研究都是以语言学为基础。藏语安多方言语音合成技术的研究仍然比较匮乏,也没有一套专门面向安多方言的计算机标注系统。本论文主要实现了基于HMM的藏语安多方言的语音合成。论文的工作和创新如下:1.设计了一套面向藏语安多方言语音合成的计算机标注系统,实现了安多方言的语音合成。首先以最基本的基元声韵母为研究对象,总结出安多方言所有声韵母特性。然后对藏文进行研究,设计了以基字丁为基础的不同藏文字对应的声韵母库,设计了安多方言的机读音标SAMPA-ADT。结合安多方言的词边界,句子边界等信息。完成了标注系统的建立。2.设计藏语安多方言的语料库。根据安多方言的特殊发音规律,结合安多方言的《方言调查字表》,设计了安多的500句文本语料信息,寻找安多2男2女进行专业录音。并对语料进行切分标注。3.利用基于HMM的语音合成技术,通过说话人自适应训练,合成了自然度较高的藏语安多方言语音。通过语音合成实验,对合成的语音进行了MOS和DMOS评测。实验结果表明,通过说话人自适应训练方法,可以提高藏语安多方言语音的音质。
【学位授予单位】：西北师范大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TN912.3
【图文】：

地图集,中国语言,地图集,安多方言

基于 HMM 的藏语安多方言语音合成的研究第 2 章藏语安多方言发音介绍言属归个古老的语言，藏语方言主要由卫藏方言、安多方言和康特征比较，安多方言大于康巴方言大于卫藏方言。安多方多的方言，研究安多方言有助于保护藏族文化。主要分布在青海的海北藏族自治州等 5 个自治州，甘肃的治县，四川省北部等地。安多地区根据地理位置不同分为具体可细分为牧区土话、农区土话和半农半牧区土话和道分布在安多大部分地区，农区土话分布在尖扎县，半农半仁县为主，道孚土语主要分布于康区。如下图 2.1 所示。

界面图,界面,安多方言,单声道录音

基于 HMM 的藏语安多方言语音合成的研究2.2 语音的录制在专业录音棚中，采用 Pro Tools 单声道录音软件进行录音，采样率为 16样精度为 16 位。保存为 Wav 格式文件。因音质效果会影响实验结果质量音工作量较大。我们可根据计算机屏幕显示器的语音波形和耳机跟听进行音质的监控。以便保证高效录音。下图 3.2 为录音界面。

流程图,安多,文件生成,流程图

基于 HTS 的统计参数的语音合成中最核心的工作就是标注，对藏语安多韵母、词边界信息、语句边界信息进行标注，标注时与藏语安多方言相同，我们直接按照国际上通用的机读音标进行标注，不同的部分根据简化原安多方言独有的 SAMA-ADT 标注。我们根据根据安多方言语法规则知识进行文本规范，转化成标准的书写形式。例如文本中的数字、标点、日期等的规范，还要检查控制符的合法性，滤掉系统不能辨识的错误的字符。法词典，对语法进行分析，确定词边界和句子边界信息，对于安多文本来说汉语简单明显。它的句子中有明显的词的分隔符和句子分隔符。对输入的本进行词边界和句子边界的识别。根据语法词典分析，和其他相关信息确的升调、降调、重读部分。在这部分中，通过研究安多方言的语法结构。转换规则，最终形成一个安多音库。在这部分内容中，得到了词边界、句信息，语句相关的升降调和重读信息。确定每个单字或字符的读音，为生方言单音素标注文件、上下文相关标注文件做了准备。如图 4.1 所示，为言文本分析及标注文件生成流程图。

【参考文献】