基于非平行语料的多人语音转换

发布时间：2023-06-27 22:42

　　随着计算机技术的发展以及语音处理技术的突破,语音在生活中发挥了重要的作用,如车载系统的语音助手和安防系统中的声纹识别,为人们的生活提供了极大的便利。其中语音转换是语音生成领域的一个重要子方向,其任务是在保证内容不变、仅改变音色的情况下,将一个人的语音转换成其他人的语音。而基于平行语料的传统语音转换方法对语料的要求影响了语音转换的推广,其语音动态规整的过程中易引入噪音,在该基础上建模多人语音转换有较大的模型代价,所以基于非平行语料的多人语音转换方法有较高的研究价值。对比基于自编码器架构的语音转换模型,基于星型生成对抗网络的转换模型可显式建模多说话人间的转换关系,避免对平行语料的依赖,以领域信息为条件可在单一模型中完成多人语音转换任务。本文以该模型为基础开展了以下工作:本文针对基于辅助分类器生成对抗网络的语音转换模型在目标说话人数量较多时存在无法转换的问题展开研究,提出了两种基于多说话人博弈的多人语音转换方法:基于多说话人博弈的辅助分类器生成对抗网络的语音转换方法和基于类最大化激活与谱归一化的生成对抗网络的语音转换方法。这两种方法通过将说话人信息引入鉴别器进行博弈,完成对说话人音色信息的捕...

【文章页数】：63 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
第1章绪论
    1.1 课题来源
    1.2 课题研究的目的及意义
    1.3 国内外相关技术研究现状
        1.3.1 语音转换的研究现状
        1.3.2 声码器的研究现状
    1.4 相关基本技术
        1.4.1 卷积神经网络
        1.4.2 实例归一化
        1.4.3 语音特征梅尔谱图
    1.5 本文的主要研究内容
    1.6 本文的章节结构
第2章基于非平行语料的多人语音转换相关技术概述
    2.1 引言
    2.2 基于条件变分自编码器的语音转换方法
    2.3 基于星型生成对抗网络的语音转换方法
    2.4 基于自编码器重构损失的语音转换方法
    2.5 本章小结
第3章基于多说话人博弈的语音转换方法
    3.1 引言
    3.2 基于辅助分类器生成对抗网络的语音转换
    3.3 基于多说话人博弈的辅助分类器生成对抗网络的语音转换
    3.4 基于类最大化激活与谱归一化的生成对抗网络的语音转换
        3.4.1 基于类最大化激活的条件转换损失
        3.4.2 基于谱归一化的约束
    3.5 实验
        3.5.1 实验数据集介绍
        3.5.2 评价指标
        3.5.3 模型参数介绍
        3.5.4 实验设置介绍
        3.5.5 实验结果及分析
    3.6 本章小结
第4章基于自注意力机制与知识迁移的语音转换方法
    4.1 引言
    4.2 基于自注意力机制的语音转换方法
    4.3 基于说话人声纹迁移的语音转换方法
    4.4 基于可迁移声码器的语音转换方法
    4.5 实验
        4.5.1 模型参数介绍
        4.5.2 实验设置介绍
        4.5.3 实验结果及分析
    4.6 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢

本文编号：3835476

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3835476.html

上一篇：负性液晶边缘场切换模式的亮线不良分析
下一篇：具有能量采集的Massive MIMO系统功率分配算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|