基于深度学习的语音转换研究
发布时间:2020-11-19 23:10
语音转换(Voice Conversion,VC)是一种将原始音频通过音频处理变成另一种风格的声音的技术。语音转换的有很多应用场景,最常见的是在语音合成(Text-to-Speech Synthesis,TTS)中用有限的语料数据帮助构造语料库。另外,语音转换在语音修复、语音翻译和语音安全相关的技术中都起到了重要的作用。在语音转换中,说话人转换是最重要的任务,也是本文研究的主要对象。语音转换技术根据语料的情况可以分为平行语料的语音转换和非平行语料的语音转换。平行语料的语音转换一般指已有原始说话人和目标说话人的语料,且这些语料的文本内容一致;非平行语料的语音转换则一般不具备相同文本内容的语料。对于平行语料的语音转换技术,本文提出了一种文本信息帮助下的神经网络算法,通过语音识别技术对音频解码和对齐得到音素序列,用语音活动检测得到更精准的语音边界。在音素序列的帮助下,用动态时间规整算法得到更精准的帧级别对齐结果,用长短时记忆循环神经网络对声学特征和音素序列建模,得到目标的频谱特征。实验表明,该系统在主观测试与客观指标上相较基线神经网络系统都有明显提升。对于非平行语料的语音转换技术,本文提出了一种基于对偶学习的神经网络模型,用少量平行语料的预训练得到性能较差的初始化模型,同时训练原始说话人转目标说话人与目标说话人转原始说话人两个转换模型,并且用模仿检测模型作为中间监督模型,保证两个模型的中间产物始终为正常的语音频谱特征。实验表明,该系统在客观指标不偏离正常范围的情况下,在主观测试中能胜过初始化转换模型,证明了对偶学习在欺骗检测模型起到正常监督作用的情况下,可以有效地利用非平行数据提升转换模型的性能。
【学位单位】:上海交通大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN912.3;TP18
【部分图文】:
人类的发音器官按照功能可以分为三部分:肺部和气管是发声的动力来源;声带是最主要的发音体;口腔、鼻腔、咽腔等声带以上的部位则为共鸣腔。语音的产生机制如图1–1所示,人类说话时,空气流从肺部通过挤压产生并被传输到气管中。在气管中,空气流会不断冲击声带,产生声源。当大脑想要发出一个元音时,声带被空气流冲击,生成固定频率的振动序列,这个固定频率决定了声音的基音频率,即人类所听到的声音的音调高低,与声带在单位时间内的开闭次数有关。而当大脑想要发出一个辅音时,声带不会产生振动,所以空气流只会产生无固定频率的噪声。声道是一个谐振腔体,所以在传递振动或者噪音时不会改变它们的固定频率或者噪音特征,但是它们的外形会改变腔体的共鸣频率,即共振峰。共振峰指的是声音信号通过傅里叶变换产生的频谱中,能量比较比较集中的区域。一般来说
人类的发音器官按照功能可以分为三部分:肺部和气管是发声的动力来源;声带是最主要的发音体;口腔、鼻腔、咽腔等声带以上的部位则为共鸣腔。语音的产生机制如图1–1所示,人类说话时,空气流从肺部通过挤压产生并被传输到气管中。在气管中,空气流会不断冲击声带,产生声源。当大脑想要发出一个元音时,声带被空气流冲击,生成固定频率的振动序列,这个固定频率决定了声音的基音频率,即人类所听到的声音的音调高低,与声带在单位时间内的开闭次数有关。而当大脑想要发出一个辅音时,声带不会产生振动,所以空气流只会产生无固定频率的噪声。声道是一个谐振腔体,所以在传递振动或者噪音时不会改变它们的固定频率或者噪音特征,但是它们的外形会改变腔体的共鸣频率,即共振峰。共振峰指的是声音信号通过傅里叶变换产生的频谱中,能量比较比较集中的区域。一般来说
图 2–1 典型的语音转换系统结构图Fig 2–1 Architecture of a typical voice conversion system图2–1是一个典型的语音转换系统的流程图。在训练阶段,声码器从训练数据集的— 8 —
【参考文献】
本文编号:2890567
【学位单位】:上海交通大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN912.3;TP18
【部分图文】:
人类的发音器官按照功能可以分为三部分:肺部和气管是发声的动力来源;声带是最主要的发音体;口腔、鼻腔、咽腔等声带以上的部位则为共鸣腔。语音的产生机制如图1–1所示,人类说话时,空气流从肺部通过挤压产生并被传输到气管中。在气管中,空气流会不断冲击声带,产生声源。当大脑想要发出一个元音时,声带被空气流冲击,生成固定频率的振动序列,这个固定频率决定了声音的基音频率,即人类所听到的声音的音调高低,与声带在单位时间内的开闭次数有关。而当大脑想要发出一个辅音时,声带不会产生振动,所以空气流只会产生无固定频率的噪声。声道是一个谐振腔体,所以在传递振动或者噪音时不会改变它们的固定频率或者噪音特征,但是它们的外形会改变腔体的共鸣频率,即共振峰。共振峰指的是声音信号通过傅里叶变换产生的频谱中,能量比较比较集中的区域。一般来说
人类的发音器官按照功能可以分为三部分:肺部和气管是发声的动力来源;声带是最主要的发音体;口腔、鼻腔、咽腔等声带以上的部位则为共鸣腔。语音的产生机制如图1–1所示,人类说话时,空气流从肺部通过挤压产生并被传输到气管中。在气管中,空气流会不断冲击声带,产生声源。当大脑想要发出一个元音时,声带被空气流冲击,生成固定频率的振动序列,这个固定频率决定了声音的基音频率,即人类所听到的声音的音调高低,与声带在单位时间内的开闭次数有关。而当大脑想要发出一个辅音时,声带不会产生振动,所以空气流只会产生无固定频率的噪声。声道是一个谐振腔体,所以在传递振动或者噪音时不会改变它们的固定频率或者噪音特征,但是它们的外形会改变腔体的共鸣频率,即共振峰。共振峰指的是声音信号通过傅里叶变换产生的频谱中,能量比较比较集中的区域。一般来说
图 2–1 典型的语音转换系统结构图Fig 2–1 Architecture of a typical voice conversion system图2–1是一个典型的语音转换系统的流程图。在训练阶段,声码器从训练数据集的— 8 —
【参考文献】
相关期刊论文 前1条
1 刘蕊;;发声的生理结构和嗓音的保护[J];民族音乐;2009年06期
本文编号:2890567
本文链接:https://www.wllwen.com/kejilunwen/wltx/2890567.html