当前位置:主页 > 科技论文 > 网络通信论文 >

基于CycleGAN网络实现非平行语料库条件下的语音转换

发布时间:2020-04-29 14:00
【摘要】:语音转换技术指的是,在不改变语义信息的情况下,改变源说话人说话的个性特征,使语音听起来像目标说话人说得一样。语音转换有着较高的理论研究价值和广泛的应用场景。当前语音转换的研究大多数依赖平行语料库,但实际中,平行语料库往往难以获取,特征对齐容易出错,更是对于不同语言转换无能为力。本文重点研究更灵活、通用的非平行数据条件下的语音转换,主要做了如下工作:(1)对语音转换的理论和流程进行了梳理,使用最新的WORLD语音信号的分析合成模型来做特征参数提取、语音合成工作。(2)将在非平行数据条件下的图像风格迁移中表现很好的CycleGAN网络运用到语音转换的频谱转换过程中,并针对性的改进了生成器网络、判别器网络、损失函数,加入了一些实验细节和超参数,结果表明能够实现基本的语音转换,但结果有待提升。(3)对上述网络继续做出改进,更改了网络结构以解决的判别器网络训练困难、训练不稳定等问题,加入了GLU激活函数保证了顺序和分层的特性。结果显示基于改进的CycleGAN+GLU方法已经很接近基于平行数据条件下的GMM方法。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.3

【参考文献】

相关期刊论文 前1条

1 王金明,张雄伟;话者识别系统中语音特征参数的研究与仿真[J];系统仿真学报;2003年09期

相关硕士学位论文 前4条

1 董添辉;语音转换中声道谱参数变换算法的研究[D];南京邮电大学;2017年

2 方鹏;歌唱人转换研究[D];中国科学技术大学;2016年

3 李清华;语音转换技术研究及实现[D];湖南师范大学;2015年

4 周慧;基于PAD三维情绪模型的情感语音转换与识别[D];西北师范大学;2009年



本文编号:2644653

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2644653.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户74e1c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com