基于深度学习的蒙古语语音转换系统
发布时间:2021-06-17 03:10
随着个性化语音合成技术的日渐成熟和人机交互的多样性发展,语音转换技术一直受到国内外研究者的关注。语音转换技术是指在语音内容不变的前提下,将源说话人的语音转换成目标说话人语音的一种特殊语音合成技术,可应用在语音合成系统的后端,生成多样的个性化语音合成效果。近年来,面向汉语、英语等主流语言的语音转换技术已经取得了很大的进展,但是面向蒙古语的语音转换技术还没有相关的研究成果。本文利用深度学习技术对蒙古语语音转换技术中展开研究。首先,本文借鉴汉语、英语等主流语言的语音转换技术的基本原理和模型架构,研究基于注意力机制的编码器-解码器(Encoder-Decoder)结构的蒙古语语音转换模型,实现了将源语音的声学参数直接映射为目标语音声学参数的端到端蒙古语语音转换技术。为了验证该模型的有效性,本文同时搭建了基于深度双向长短期记忆网络(DBLSTM)的蒙古语语音转换模型,并进行了相应的客观评价和主观评价。客观评价表明基于编码器-解码器(Encoder-Decoder)结构的蒙古语语音转换模型可以更好地拟合真实目标语音的声学参数,主观评价表明基于编码器-解码器(Encoder-Decoder)结构的蒙...
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
成多人音构图
图 3. 10 特征预测对齐图Figure 3.10 Feature prediction alignment.11,图 3.12,图 3.13,是选取了相同训练语音数量下,对一个测试语音进别表示深度双向长短期记忆网络训练模型得到的梅尔频谱图,原始语音文基于端到端模型得到的梅尔频谱图。
图 3. 10 特征预测对齐图Figure 3.10 Feature prediction alignment图 3.11,图 3.12,图 3.13,是选取了相同训练语音数量下,对一个测试语音进行转换的结果,分别表示深度双向长短期记忆网络训练模型得到的梅尔频谱图,原始语音文件的梅尔频谱图和基于端到端模型得到的梅尔频谱图。
本文编号:3234342
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
成多人音构图
图 3. 10 特征预测对齐图Figure 3.10 Feature prediction alignment.11,图 3.12,图 3.13,是选取了相同训练语音数量下,对一个测试语音进别表示深度双向长短期记忆网络训练模型得到的梅尔频谱图,原始语音文基于端到端模型得到的梅尔频谱图。
图 3. 10 特征预测对齐图Figure 3.10 Feature prediction alignment图 3.11,图 3.12,图 3.13,是选取了相同训练语音数量下,对一个测试语音进行转换的结果,分别表示深度双向长短期记忆网络训练模型得到的梅尔频谱图,原始语音文件的梅尔频谱图和基于端到端模型得到的梅尔频谱图。
本文编号:3234342
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3234342.html