基于韵律的蒙古语语音合成研究
本文选题:蒙古语 切入点:语音合成 出处:《内蒙古大学》2012年博士论文
【摘要】:本研究基于大规模语音数据库,采取语音实验的方法考察了蒙古语语音合成中遇到的韵律问题。文章主要由三个部分组成:一是开展了面向蒙古语合成的大规模语音数据库和电子词典等基础资源的建设工作;二是细致描写了蒙古语连续话语中的音节结构变化现象,包括音段的增加和脱落以及由此引起的音节重组问题,并在此基础上探讨了蒙古语口语和书面语的音节对应关系以及音段增减变化和话语韵律结构之间的关系问题;三是深入考察了蒙古语在朗读条件下的韵律组织结构问题,并从音高和音长等基本声学参数入手,对韵律词和韵律短语在朗读话语中的实际表现进行了细致考察,揭示出音高曲拱这一语音声学特征在韵律短语分析过程中的重要作用。 本研究得到的结论主要有: 一、研制了一套面向蒙古语语音合成的字音转写符号系统,该系统包括词首、词中、词末位置出现的50个元音(包括长元音、短元音、二合元音)符号和27个辅音(基本辅音和借词辅音)符号,并从语音区别特征方面对每个音素进行了描写和区分。语音合成结果表明本文对蒙古语音段系统的描写和区分是有效和必要的,系统而细致的音素分类能在一定程度上改善合成语音的可懂度。 二、在连续话语中,词的多个读音在语义、语法、语用三个层面上存在差异。在具体的语境中,每个多音字的读音具有唯一性,根据这一特点,在字音转写过程中可以有效地区分多音字。没有区别词义也不存在语法和语用特征的多音字属于读音规范化范畴的问题,有进一步整理合并的必要。 三、在单词层面上,蒙古语单音节词在口语和书面语中的音节结构基本一致,而针对双音节词的书面语读音与口语读音之间的不对应性,本研究细致归纳出了音节结构变化的12条规律。多音节词在口语中的音节结构变化从词末音节开始往前变,并遵循双音节词的音节结构变化规律。在蒙古语口语中,音节重组与音节中的元音类型以及该音节在词中的位置有一定的联系:短元音音节的结构容易发生变化,而长元音音节和二合元音音节的结构比较稳定;词首音节(不包括单音节词)的结构比较稳定,词中音节和词末音节相对容易发生音节重组。根据这一特点,本研究把蒙古语口语中的音节分为稳定音节与易变音节,并认为在蒙古语语音合成的字音转写中易变音节是转写的重点和难点。 四、在连续话语层面上,引起音节结构变化的主要因素是名词附加成分和词缀化虚词,这些附加成分或虚词在书写形式上与其他成分是分开的、但在口语读音中却往往不能单独构成一个独立音节。它们在连读后发生的音节重组规律与单词内部的音节变化规律基本一致。当名词附加成分的音节类型是V、C、 VLC时,需要借助其前置音节的辅音来构成独立音节。当附加成分的音节类型是CVL时,其表现比较稳定,在连读时能单独构成词末音节。蒙古语口语中的音段脱落和增加、音节重组等现象与话语的韵律结构有一定的联系:韵律词是此类音变现象的作用域,名词与名词附加成分之间发生的音节重组以及音段增加和脱落等现象通常发生在韵律词内部。因此,可以把名词附加成分看做预测韵律词边界的有用线索。研究结果还表明,词缀化虚词的韵律作用域存在一定区别:虚词“(?)”的作用域是韵律词,虚词“(?)”的韵律作用域是韵律短语,虚词“(?)”和“(?)”的作用域是语调短语。 五、本研究发现,在正常朗读的陈述句中,每个韵律短语一般都包含一个相对独立完整的音高曲拱,有且仅只有一个音高峰值,在此之前音高呈上升走势,在此之后音高呈下降走势,并且一般会一直延续到韵律短语的结束位置。这种“低-高-低”的音高变化模式构成了一个个相对独立完整的音高曲拱,起始于韵律短语之首,结束于韵律短语之末。根据这一发现,本研究认为,当一个语句内部既无标点符号又无显著停顿时,可在一定程度上参考音高的变化走势来帮助确定其内部的韵律短语边界位置:韵律短语边界往往处于两个音高曲拱的交界处。数据统计结果还表明,韵律短语边界前音节会有一定的延长。另外,词末弱短元音也是预测韵律短语边界的重要语音事件。 六、韵律词边界处没有可明显感知到的停顿,也没有明显的延长。韵律词内部的每个音节的时长分布与该音节在韵律词内的位置有一定关系:尾音节时长首音节时长中间音节时长。韵律词在韵律短语中的位置会影响韵律词的长度,通常韵律短语边界处的韵律词时长比韵律短语中间位置上的韵律词时长略长。韵律词在韵律短语中的位置会影响韵律词的音高特性。根据统计,韵律词主要有以下4种组构方式:(1)1至5个音节的单个语法词;(2)并列关系的两个单音节语法词;(3)1至4音节的语法词和一个单音节虚词的组合;(4)处于韵律短语边界位置的单音节语法词或功能词。 七、语音合成结果表明,在增加韵律短语和韵律词的切分信息之后,能够在一定程度上改善合成语音的自然度。但由于目前用于训练的韵律切分语料还相对较少,所以导致合成语音的自然度提升效果不够显著。但作者相信,随着对蒙古语韵律特性的研究逐渐深入,以及在训练过程中不断增加包含韵律切分信息的语料,将有可能合成出高质量、高自然度的蒙古语语音。
[Abstract]:Based on the large - scale speech database , this paper studies the rhythm problem encountered in Mongolian speech synthesis by adopting the method of speech experiment . The paper mainly consists of three parts : Firstly , the construction of basic resources such as large - scale voice database and electronic dictionary for Mongolian synthesis is carried out ;
Second , the syllable structure change phenomenon in Mongolian continuous discourse is described in detail , including the increase and shedding of the sound field and the problem of syllable reorganization caused by this , and on the basis of this , the relationship between the syllable correspondence relation of Mongolian spoken and written language and the relationship between the change of the phonetic section and the structure of discourse rhythm are discussed .
The third is to investigate the structure of the rhythmic structure of Mongolian language under the condition of reading aloud , and begin with the basic acoustic parameters such as pitch and length , and carefully study the actual performance of the rhythm phrase and the rhythm phrase in the reading discourse , and reveal the important role of the phonetic acoustic feature in the analysis of the rhythm phrase .
The conclusions of this study are mainly as follows :
In this paper , a set of phonetic transcription symbol system for Mongolian speech synthesis is developed . The system includes 50 vowel sounds ( including long vowel , short vowel , binary vowel ) and 27 consonant ( basic consonant and word consonant ) symbols appearing at the end of the word , and describes and distinguishes each phoneme from the aspect of speech discrimination . The results of speech synthesis indicate that the description and distinction of the Mongolian speech segment system are effective and necessary , and the systematic and detailed phoneme classification can improve the intelligibility of synthesized speech to some extent .
In the concrete context , the pronunciation of each multi - syllable word has uniqueness , and according to this feature , the pronunciation of each multi - syllable word can be effectively divided into multiple phonetic words in the process of writing and writing .
3 . In the word level , the syllable structure of Mongolian monosyllables is basically consistent with the syllable structure in the spoken and written language . In this study , 12 laws of the syllable structure change are summed up . In the spoken language of Mongolian , the syllable structure changes from the end of the word to the former , and the syllable structure of the disyllable word is followed . In the spoken Chinese , the structure of the syllable structure is easy to change , while the structure of the long vowel and the vowel syllable is relatively stable ;
According to this feature , this study divides the syllables in Mongolian spoken language into stable syllables and Yi syllables . It is believed that Yi Syllable is the focus and difficulty of transcription in Mongolian speech synthesis .
When the syllable type of the additional component is V , C and VLC , it is necessary to form an independent syllable by the consonant of its pre - syllables .
In this study , it is found that , in the declarative sentence of normal reading , each rhythm phrase generally contains a relatively independent and complete pitch curve , and only one pitch peak is only one pitch peak .
6 . There is no obvious pause at the boundary of the rhythm word , and there is no obvious prolongation . The length of each syllable in the rhythm word has a certain relation with the position of the syllable in the rhythm word : the position of the rhythm word in the rhythm phrase will affect the length of the rhythm word .
( 2 ) two monosyllables in parallel relation ;
( 3 ) a combination of a grammar word of 1 to 4 syllables and a monosyllable virtual word ;
( 4 ) a monosyllable grammatical word or function word in the position of the rhythm phrase boundary .
7 . The results of speech synthesis indicate that the natural degree of synthesized speech can be improved to a certain extent after increasing the segmentation information of the rhythm phrase and the rhythm word . However , the author believes that , with the study of the rhythm characteristics of Mongolian language , it is possible to synthesize the Mongolian voice with high quality and high natural degree .
【学位授予单位】:内蒙古大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:H212
【参考文献】
相关期刊论文 前10条
1 徐英莹,张培仁;粤语语音合成系统语料库设计研究[J];计算机工程;2005年14期
2 张力;薛惠锋;吴晓军;李a\;;中文TTS系统中多音字的一种解决方案[J];计算机应用与软件;2008年02期
3 努尔比娅·塔依尔;艾斯卡尔·肉孜;古丽娜尔·艾力;地里木拉提·吐尔逊;;维吾尔语陈述句韵律层级停顿模型研究[J];计算机与现代化;2010年07期
4 刘亚斌,李爱军;朗读语料与自然口语的差异分析[J];中文信息学报;2002年01期
5 胡伟湘,徐波,黄泰翼;汉语韵律边界的声学实验研究[J];中文信息学报;2002年01期
6 初敏;自然言语的韵律组织中的不确定性及其在语音合成中的应用[J];中文信息学报;2004年04期
7 伊·达瓦;张玉洁;上园一知;大川茂树;章森;井佐原均;白井克彦;;蒙古语语言-文字的自动化处理[J];中文信息学报;2006年04期
8 吴义坚;王仁华;;基于HMM的可训练中文语音合成[J];中文信息学报;2006年04期
9 蔡莲红;崔丹丹;蔡锐;;汉语普通话语音合成语料库TH-CoSS的建设和分析[J];中文信息学报;2007年02期
10 孙竹;;现代蒙古语的弱化元音[J];民族语文;1981年01期
相关会议论文 前2条
1 陶建华;蔡莲红;赵晟;;汉语语音合成中的文本分析和韵律处理[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 邵艳秋;赵永贞;韩纪庆;刘挺;;汉语文语转换中韵律词自动切分的研究[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
相关重要报纸文章 前1条
1 熊子瑜;[N];中国社会科学院院报;2006年
相关博士学位论文 前1条
1 山丹;蒙古语标准音声学分析[D];内蒙古大学;2007年
相关硕士学位论文 前10条
1 白梦璇;蒙古语阿拉善土语元音声学分析[D];内蒙古大学;2005年
2 包世恩;蒙古语非特定人大词汇量连续语音识别系统的研究与实现[D];内蒙古大学;2005年
3 阿拉坦;蒙古语布里亚特土语元音声学分析[D];内蒙古大学;2006年
4 其布热;蒙古语乌珠穆沁土语元音声学析[D];内蒙古大学;2006年
5 毕力格图;基于HMM建模的蒙古语连续语音识别系统的研究与实现[D];内蒙古大学;2006年
6 艾霞;面向语音识别的蒙古语语言模型的研究[D];内蒙古大学;2007年
7 田会利;基于词干词缀的有限条词的蒙古语语音合成系统的研究[D];内蒙古大学;2007年
8 包桂兰;蒙古语擦辅音实验语音学研究[D];内蒙古大学;2007年
9 哈斯其劳;面向语音识别的蒙古语声学模型的研究[D];内蒙古大学;2008年
10 敖敏;蒙古语肃北土语元音声学研究[D];内蒙古大学;2008年
,本文编号:1729777
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/1729777.html