非平行文本条件下基于文本编码器、VAE和ACGAN的多对多语音转换研究
发布时间:2021-08-17 01:53
语音转换技术是一种将源语音中的说话人个性信息转换为目标说话人个性信息,同时保留源语义信息的技术。本文针对目前语音转换研究领域存在的转换后语音音质差、说话人相似度不高的问题进行了相应的探讨与改进,通过引入句嵌入和文本编码器对VAWGAN(变分自编码器和生成对抗网络)语音转换模型中潜在变量的过度正则化问题进行了改进,并通过引入辅助分类器生成对抗网络改善了生成对抗网络的结构。本文的第一个改进点是在VAWGAN系统的基础上,利用文本编码器训练句嵌入,将句嵌入约束添加到变分自编码器和生成对抗网络模型中,利用句嵌入中包含的语义信息,进一步提升了转换后语音的语音自然度和个性相似度。主观和客观评价表明,本文提出的方法比基于VAWGAN的基准方法转换后语音平均MCD(Mel-Cepstral Distortion,梅尔倒谱失真)值降低了4.39%,平均MOS(Mean Opinion Score,平均意见分)值提升了4.46%,平均ABX值提升了6.70%,说明本文提出的方法在提升说话人个性相似度的同时也提升了语音音质。本文的第二个改进点是利用辅助分类器生成对抗网络替代了VAWGAN模型中的Wasser...
【文章来源】:南京邮电大学江苏省
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
人体发音器官分布图
气流从声门弹出形成脉冲,从而在声门处产生准周期性脉冲序列气流过声道发出的声音称为浊音。当声带完全伸展时,来自肺部的气流不受影响地通过果声道的某一部分收缩形成狭窄的通道,则迫使气流高速冲过收缩区域,并产生湍流道之后形成摩擦声或清音。如果通道的某个部分完全关闭,则气流到达此处建立压力闭点突然打开,气流就会迅速释放,形成爆破音。可以看出,对于浊音,清音和爆们的激发源是不同的:浊音是位于声门的准周期脉冲序列,清音是位于声道某个收气湍流,爆破音是位于压力突然释放的通道关闭处。 语音产生的数学模型究人员通过数字技术模拟语音信号的产生。语音信号是一种时变信号,然而在短时,可以做一种合理假设:语音信号为线性时不变的。通过以上合理假设,语音信号是线性时不变系统在随机噪声或准周期脉冲序列激励下的输出,如图 2.2 所示。
图 2.4 变分自编码器原理示意图转换框架包含一个学习与说话者无关建指定说话人语句的解码器(decoder)。该架的具体原理将在第三章介绍基准系统时用高质量的语音分析/合成技术,例如谐波[57]、STRAIGHT(Speech Transformation ighted Spectrum)[58]、WORLD[59]等。从源说话者的语音特征,然后转换的语音特征成模型使用广泛,例如在歌唱合成器错误!未码器[60]的语音分析,操作和合成被广泛使
本文编号:3346821
【文章来源】:南京邮电大学江苏省
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
人体发音器官分布图
气流从声门弹出形成脉冲,从而在声门处产生准周期性脉冲序列气流过声道发出的声音称为浊音。当声带完全伸展时,来自肺部的气流不受影响地通过果声道的某一部分收缩形成狭窄的通道,则迫使气流高速冲过收缩区域,并产生湍流道之后形成摩擦声或清音。如果通道的某个部分完全关闭,则气流到达此处建立压力闭点突然打开,气流就会迅速释放,形成爆破音。可以看出,对于浊音,清音和爆们的激发源是不同的:浊音是位于声门的准周期脉冲序列,清音是位于声道某个收气湍流,爆破音是位于压力突然释放的通道关闭处。 语音产生的数学模型究人员通过数字技术模拟语音信号的产生。语音信号是一种时变信号,然而在短时,可以做一种合理假设:语音信号为线性时不变的。通过以上合理假设,语音信号是线性时不变系统在随机噪声或准周期脉冲序列激励下的输出,如图 2.2 所示。
图 2.4 变分自编码器原理示意图转换框架包含一个学习与说话者无关建指定说话人语句的解码器(decoder)。该架的具体原理将在第三章介绍基准系统时用高质量的语音分析/合成技术,例如谐波[57]、STRAIGHT(Speech Transformation ighted Spectrum)[58]、WORLD[59]等。从源说话者的语音特征,然后转换的语音特征成模型使用广泛,例如在歌唱合成器错误!未码器[60]的语音分析,操作和合成被广泛使
本文编号:3346821
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3346821.html