基于深度学习的歌唱语音合成方法研究

发布时间:2021-10-08 05:50
  歌唱语音合成(Singing Voice Synthesis,SVS)旨在实现将歌词和乐谱信息(例如节奏、音高等)转换成歌唱语音。统计参数合成方法可利用较少量歌唱数据合成平稳流畅的歌唱语音,已成为主流的歌唱语音合成方法。传统以隐马尔科夫模型为代表的统计参数歌唱语音合成声学模型的精度不足,合成歌唱语音的自然度不理想。近年来,以深度神经网络(Deep Neural Network,DNN)为代表的深度学习模型在统计参数语音合成中得到了广泛应用,显著提高了声学建模精度,但是DNN无法对歌唱语音中声学特征的长时相关性进行建模。因此,本文围绕基于深度学习的歌唱语音合成,开展了循环神经网络、深度自回归模型、序列到序列模型等歌唱语音合成声学建模方法的研究,具体包括:首先,本文研究了基于循环神经网络的歌唱语音合成方法。歌唱语音合成中存在复杂的上下文依赖关系,该方法利用循环神经网络结构对这些依赖关系进行建模,提升了传统DNN模型预测基频、频谱、时长特征的精度。其次,本文提出了基于深度自回归模型的歌唱语音合成声学建模方法。为了更好的描述在连续帧中声学特征之间的依赖性,该方法采用深度自回归的方式来预测基频轨... 

【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于深度学习的歌唱语音合成方法研究


图1.1歌唱语音合成系统框图??如图l.i所示的是歌唱语音合成系统框图

语音,基频,动态特性,种类


?第1章绪论???賊摸屏输入?I??^?歌词文本???语言处理???韵律处理???合成?——??'"^'Sy'S-h??W?*?TI'11?*??*?1'?'rt'w?1??光电扫纖入?▲?*???"?一- ̄ ̄??敗据库输入?音乐规则?乐遼信患?音乐库??图1.1歌唱语音合成系统框图??如图l.i所示的是歌唱语音合成系统框图。首先,从终端的键盘、触摸屏,光??电扫描或者直接从音乐数据库当中获得输入的歌词文本。接着,歌词文本输入完??毕后,要根据指定的语言类别和相应的音乐规则进行歌词文本的分析,获得其对应??的音素转写等语言学表征。然后,根据给定的乐谱信息进行韵律处理,获得歌词文??本对应的音高、节奏韵律表征。最后,基于以上获得的语言学表征和韵律表征,采??用统计参数或者单元挑选与波形拼接等方法,合成最终的歌唱语音波形。??歌唱语音合成任务可以根据输入源的差异分为两类:第一类任务是歌词到歌??唱语音[11]?(Lyrics?To?Singing,?LTS)合成,输入是来自一首歌的歌词。第二类任务是??语音到歌唱[I2]?(Speech?To?Singing,?STS)合成,输入是来自歌词对应的朗读语音。??歌唱语音中的音高(Pitch)是通过信号中的基频(F0)来体现的。区别于说话语??音,歌唱语音的基频轨迹还包括如下几种类型的动态特性:过冲(Overshoot)、预??偏离(Preparation)、颤音(Vibrato)以及细微波动(Fine?fluctuations)[12]。过冲指音高??改变后,突然转向目标音高的F0波动;预偏离指在音高改变之前,迅速向可观察??的音高相

框图,生成模型,基频,动态特性


?第1章绪论???基于上述的歌唱语音基频动态特性,可采用如图1.?3所示的流程框架[13]来生??成歌唱语音的基频轨迹。首先,利用乐谱中的音高信息生成阶梯状的音符基频。??然后将阶梯状音符基频通过冲(Overshoot)模型、预偏离(Preparation)模型、颤音??(Vibrato)模型。最后,再通过细微波动(Fine?fluctuations)模型微调,生成最终含有??动态特性的基频,比例积分微分(Proportional?Integral?Differential,?PID)方法是构建??以上模型的经典方法[14]。??A_j ̄|?<?麵型?一??阶職音符基频?卜颤音模型?^…寸?麵频,??\?=—/?1??\?\?/?i??<预偏离模型?细微波动模型??图1.3基于动态特性的基频生成模型框图??PID方法通过控制一个一级、二级转移函数来产生过冲、预偏离、颤音和细??微波动。??R(s)?????C(s)?????Gc(s)?—-??H(s)????图1.4基于PID方法生成含有动态特性基频的模型框图??图1.4所示为基于PID方法生成含有动态特性基频的模型框图。巩〇是输??入,是PID的一级转移函数,//(〇为二级转移函数,是输出。PID的一??级转移函数可以写为:??GC(S)-^P?+ ̄l+^ds?(11)??s??其中s代表拉普拉斯变换操作,代表比例增益,心代表积分增益,代表微分??增益。P丨D的一级转移函数可以写为:??GAs)?=?Kp+^--+Kpts?(1.2)??T,?s??其中7:代表积分时间常数,r代表微分时间常数。该方法还需要一个PI

【参考文献】:
期刊论文
[1]用于语音合成的PSOLA算法简介[J]. 涂相华,蔡莲红.  微型计算机. 1996 (04)

博士论文
[1]基于隐马尔科夫模型的语音合成技术研究[D]. 吴义坚.中国科学技术大学 2006



本文编号:3423552

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3423552.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户546df***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com