当前位置:主页 > 科技论文 > 信息工程论文 >

汉藏双语合成语音音质评测的研究

发布时间:2018-11-20 18:53
【摘要】:跨语言语音合成能够实现在同一个语音合成系统中合成出不同语言的语音,成为了语音信号处理领域的研究热点。目前,西北师范大学已经实现了汉语普通话和藏语拉萨方言双语语音合成系统。为了研究汉藏双语跨语言语音合成系统合成的不同语言不同说话人的语音质量优劣,本论文实现了一个汉藏双语跨语言的语音合成系统,在此基础上对不同语音合成方案下合成出的汉藏双语语音音质进行了主客观评测,并提出了一种利用说话人识别和语音识别对说话人相似度和合成语音音质进行评测的方法。论文的主要工作和创新如下:1.设计了汉藏双语语音合成方案,实现了一个汉藏双语跨语言语音合成系统。设计了汉语普通话和藏语拉萨方言的语音语料库、文本语料,上下文属性标注格式以及上下文相关的问题集,利用说话人自适应训练的方法训练了汉藏双语语音的声学模型,利用声码器合成出语音。2.评测了不同语音合成方案合成的汉语普通话语音和藏语拉萨方言语音的音质。采用主观评测方法和客观评测方法。主观评测方法包括平均意见得分、差异平均意见得分、相对平均意见得分以及诊断押韵测试;客观评测方法包括基频参数测量、时长参数测量以及感知语音质量评估。结果表明,参加说话人自适应训练的普通话语句为110句、藏语语句为300句时,合成的汉语普通话和藏语拉萨方言语音的质量较高。3.提出了一种采用说话人识别技术评测汉藏双语跨语言语音合成系统合成的不同说话人语音相似度的评测方法。以高斯混合模型为声学模型,结合传统的短时处理技术和经验模态分解来获得声学特征,训练了一个说话人识别系统。结果表明,当参加说话人自适应训练的汉语普通话语句为110句时,合成语音的说话人识别率达到88.89%,当参加自适应训练的藏语语句300句时,合成语音的说话人识别率为94.44%。4.提出了一种利用语音识别技术进行汉藏双语跨语言语音合成系统的合成语音音质评测方法。采用了5状态的连续隐Markov模型为基元的声学模型,采用13维的Mel频率倒谱系数及其一阶差分和二阶差分形成一个13×3维的特征向量来训练声学模型。结果表明,当参加说话人自适应训练的普通话语句为110句时,合成语音的语音识别率为96.41%,当参加自适应训练的藏语语句300句时,合成语音的语音识别率为91.27%。
[Abstract]:Cross-language speech synthesis, which can synthesize different languages in the same speech synthesis system, has become a research hotspot in the field of speech signal processing. At present, Northwest normal University has implemented the bilingual phonetic synthesis system of Mandarin and Tibetan Lhasa dialect. In order to study the speech quality of different speakers in different languages synthesized by Chinese-Tibetan bilingual speech synthesis system, a Chinese-Tibetan bilingual cross-language speech synthesis system is implemented in this paper. On this basis, the sound quality of Chinese-Tibetan bilingual speech synthesized under different speech synthesis schemes is evaluated subjectively and objectively, and a method of speaker similarity and synthetic speech quality evaluation using speaker recognition and speech recognition is proposed. The main work and innovation are as follows: 1. A Chinese-Tibetan bilingual speech synthesis scheme is designed and a Chinese-Tibetan bilingual cross-language speech synthesis system is implemented. The phonetic corpus, text corpus, contextual attribute tagging format and context-related problem set of Chinese Putonghua and Tibetan Lhasa dialect are designed, and the acoustic model of Chinese-Tibetan bilingual speech is trained by the method of speaker adaptive training. Using vocoder to synthesize speech. 2. The phonological quality of Chinese Putonghua and Tibetan Lhasa dialect synthesized by different speech synthesis schemes was evaluated. Subjective evaluation method and objective evaluation method are adopted. Subjective evaluation methods include average opinion score, difference average opinion score, relative average opinion score and diagnostic rhyme test; objective evaluation methods include fundamental frequency parameter measurement, duration parameter measurement and perceptual speech quality evaluation. The results show that the quality of the synthesized Mandarin and Tibetan Lhasa dialect is higher than that of Tibetan Lhasa dialect when 110 Putonghua sentences and 300 Tibetan sentences are used to participate in speaker adaptive training. This paper presents a method to evaluate the speech similarity of different speakers in Chinese-Tibetan bilingual speech synthesis system by using speaker recognition technology. A speaker recognition system was trained by using Gao Si mixed model as acoustic model, combined with traditional short-time processing techniques and empirical mode decomposition to obtain acoustic features. The results show that the speaker recognition rate of synthesized speech is 88.89 when the Chinese Putonghua sentence in adaptive training is 110 sentences, and when 300 Tibetan sentences participate in adaptive training. The speaker recognition rate of synthetic speech is 94.44. 4. In this paper, a method for evaluating the sound quality of Chinese and Tibetan bilingual speech synthesis system based on speech recognition is presented. The continuous hidden Markov model with 5 states is used as the elementary acoustic model. The 13 D Mel frequency cepstrum coefficient and its first order difference and second order difference are used to form a 13 脳 3 dimensional eigenvector to train the acoustic model. The results show that the speech recognition rate of synthetic speech is 96.41 when the Putonghua sentence in speaker adaptive training is 110 sentences, and 91.27 when Tibetan language sentence is 300 sentences in adaptive training.
【学位授予单位】:西北师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.3

【相似文献】

相关期刊论文 前10条

1 王立锋;廖琪梅;苗丹民;;合成语音感知学习模型的建立和效应验证[J];第四军医大学学报;2006年04期

2 霍飞;阿尼·库珀;;机械合成语音,能最终实现吗?[J];世界科学;2012年02期

3 赵博,蔡莲红;合成语音自然度客观测度[J];计算机工程与应用;2005年07期

4 华一满;;合成语音在智能仪器中的应用[J];电子技术;1992年07期

5 宋洁;;语音输出使未来的通讯越来越方便[J];航空计算技术;1985年02期

6 邓正良;一种灵活合成语音库语音的方法[J];广西气象;2000年04期

7 陈联武;郭武;戴礼荣;;声纹识别中合成语音的鲁棒性[J];模式识别与人工智能;2011年06期

8 高正平;徐骏宇;黄汉辉;;PWM在合成语音输出电路中的应用[J];电子科技大学学报;2006年01期

9 余志才,邵志标;PWM方式输出合成语音[J];半导体技术;2001年12期

10 刘惠华,潘建军,周冰,范京;稀疏谱线合成对元音频域信息分布的探讨[J];北京机械工业学院学报;2005年01期

相关会议论文 前6条

1 吕士楠;林凡;张连毅;;基于大语音库的拼接合成语音特征分析[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年

2 鲍怀翘;王安红;吕士楠;郑玉玲;;普通话合成语音评估方法研究[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

3 许洁萍;王安红;鲍怀翘;郑玉玲;陈明;吕士楠;;汉语合成语音评测实验研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年

4 初敏;;韵律研究与合成语音的自然度[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年

5 初敏;吕士楠;;一种将PSOLA算法与语音正弦模型结合的合成方法[A];第五届全国人机语音通讯学术会议论文集[C];1998年

6 黄玫;李双田;;一种改进的正弦分析/合成语音方法及在音频时域修正中的应用[A];2006年声频工程学术交流会论文集[C];2006年

相关重要报纸文章 前1条

1 IDG电讯;XML:位于逐渐成形的Web服务中心[N];计算机世界;2002年

相关博士学位论文 前1条

1 黄平牧;中文TTS系统中若干关键技术研究[D];北京邮电大学;2008年

相关硕士学位论文 前6条

1 徐世鹏;藏语统计参数语音合成的合成语音的音质评测[D];西北师范大学;2015年

2 张策;汉藏双语合成语音音质评测的研究[D];西北师范大学;2016年

3 王家丽;嵌入式汉语合成语音库的构建与搜索[D];山东大学;2008年

4 杨心yN;歌声合成技术与应用探究[D];南京艺术学院;2015年

5 唐金峰;电话语音的频带扩展[D];苏州大学;2009年

6 李蕾;关于可编程流程的IVR系统的研究与设计[D];四川大学;2005年



本文编号:2345693

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2345693.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户02e8a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com