当前位置:主页 > 科技论文 > 信息工程论文 >

非平行文本条件下基于i-vector和改进变分自编码器的多对多语音转换算法研究

发布时间:2020-11-03 05:23
   语音转换技术是一种将源说话人的个性特征转换为目标说话人个性特征,同时保持语义信息不变的一种技术。根据语音转换所获取的语料不同,可以将语音转换分为平行文本条件下的语音转换和非平行文本条件下的语音转换。在目前的非平行文本条件下的语音转换存在转换后的语音质量不好和语音个性相似度不高等问题。本文的重点是通过引入说话人身份向量和对变分自编码器模型进行改进这两方面改善转换性能。首先,由于说话人标签对说话人身份信息表征不足,本文通过引入说话人身份向量用于丰富说话人身份特征信息,从而对转换后的目标说话人语音在个性相似度上进行改进。经过实验分析表明,本文提出的基于变分自编码器和说话人身份向量的模型,转换后的语音相对于基于变分自编码器和说话人标签模型的转换语音的MCD值降低了3.34%,MOS值提升了1.6%,ABX值在同性转换情形下平均提升了3.75%,在异性转换情形下平均提升了4.37%。实验结果分析表明该方案对转换后的语音个性相似度和语音质量方面都有不同程度的提高。其次,由于变分自编码器模型的隐层变量对瓶颈层信息表示不足,本文通过对变分自编码器模型进行改进,引入参数?和C得到BETA变分自编码器模型,使模型能够学习到解缠绕的隐层表示并提升隐层编码的信息容量。通过实验分析表明,本文提出的BETA变分自编码器模型相对于变分自编码器模型转换语音的MCD值平均降低了4.10%,MOS值平均提升了5.33%,ABX值在同性转换情形下提升了5.62%,在异性转换情形下平均提升了4.37%。实验结果表明该方案对转换后的语音质量和个性相似度方面都实现了有效的改善。此外,本文还将身份向量引入上述模型中,得到BETA-VAE+i-vector模型,该模型比基于VAE和说话人身份标签模型的转换语音的MCD值降低了5.5%,MOS值提升了6.23%,ABX值在同性转换情形下提升了6.87%,在异性转换情形下提升了5.62%,说明该方法在语音音质和说话人个性相似度两个方面都有较大的提升。
【学位单位】:南京邮电大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TN912.3
【部分图文】:

分布图,分布图,声音,人体器官


表的意义出发。本章主要介绍了语音的发音模谱转换及语音性能的评估等基础知识和关键技模型生机制人体器官共同参与的复杂过程,其过程大致可进行构思,根据语法与词汇形成信息流;人体各个器官协调工作。通过肺部产生的气声带震动发出声音,声音再通过舌、腭、咽、声音;唇辐射,发出声音,输出信号;

原理图,模型结构,原理,自编码


图 3.1 VAE 模型结构原理简图成模型 p ( z ) p ( x | z) ,虚线表示真与生成模型参数 进行联合学习。成模型 p ( x | z) ,如果从自编码的辨别模型 q ( z | x) ,类似于自编码同分布的,两个观测不会相互影 p ( x | z) 参数进行估计,利用对数(1) (2) ( ) 1log ( , ,..., ) log (NN ip x x x p

对比图,目标语,语谱图,转换系统


图 4.5 是采用非平行语料训练时,基准系统 VAE+one-hot 模型与 VAE+i-vector 模型进行语音转换实验时,四组转换类别下转换语音的 MCD 平均值对比图。图 4.5 四组转换类别下不同模型转换语音 MCD 值对比图5.4155.8155.8225.9485.2435.5485.7035.7385.15.25.35.45.55.65.75.85.96.0女-女 女-男 男-女 男-男MCD值VAE+one-hot VAE+i-vector
【相似文献】

相关期刊论文 前10条

1 屈召贵;鲁顺昌;;说话人识别的不确定性i-vector分析[J];计算机工程与设计;2017年06期

2 马平;黄浩;程露红;杨萌萌;;基于i-vector说话人识别算法中训练时长研究[J];现代电子技术;2016年14期

3 栗志意;何亮;张卫强;刘加;;基于鉴别性i-vector局部距离保持映射的说话人识别[J];清华大学学报(自然科学版);2012年05期

4 王伟;韩纪庆;郑铁然;郑贵滨;周星宇;金声;;基于i-vector声纹识别上课点名系统的设计与实现[J];智能计算机与应用;2016年06期

5 杨绪魁;屈丹;张文林;;基于正则化i-Vector算法的语种识别[J];信息工程大学学报;2015年02期

6 王明合;唐振民;张二华;;基于i-vector局部加权线性判别分析的说话人识别[J];仪器仪表学报;2015年12期

7 李湾湾;范承志;祁才君;;基于改进MFD的I-Vector说话人识别[J];电声技术;2016年12期

8 史小元;景新幸;曾敏;杨海燕;;基于改进PNCC和i-vector的说话人识别鲁棒性[J];计算机工程与设计;2017年04期

9 黄俊;蒋兵;李先刚;郭武生;戴礼荣;;I-vector聚类字典及注意力机制框架的说话人自适应[J];小型微型计算机系统;2019年02期

10 哈尔肯别克·木哈西;钟珞;达瓦·伊德木草;;用说话人相似度i-vector的非负值矩阵分解说话人聚类[J];计算机应用与软件;2017年04期


相关硕士学位论文 前9条

1 许吉良;非平行文本条件下基于i-vector和改进变分自编码器的多对多语音转换算法研究[D];南京邮电大学;2019年

2 马平;基于i-vector的稳健说话人识别研究[D];新疆大学;2016年

3 陈晨;I-VECTOR说话人识别中基于偏最小二乘的总变化空间估计方法[D];哈尔滨工业大学;2015年

4 王跃;基于I-VECTOR的与文本无关的说话人识别研究[D];兰州理工大学;2017年

5 李亚琦;语音识别中基于i-vector的说话人归一化研究[D];新疆大学;2014年

6 潘怡霖;基于i-vector特征规整的概率线性判别分析说话人确认方法研究[D];哈尔滨工业大学;2017年

7 卓著;基于信道补偿技术的说话人确认研究[D];中国科学技术大学;2015年

8 陈霄鹏;声纹识别中的时变鲁棒性问题研究[D];贵州大学;2016年

9 李湾湾;说话人声纹识别的算法研究[D];浙江大学;2017年



本文编号:2868152

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2868152.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fb7ff***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com