基于深度学习的藏语语音转换的研究
发布时间:2021-05-11 18:23
语音转换(Voice Conversion,VC)是一种用于修改源说话人的语音信息以匹配目标说话人的语音信息的技术,使得转换后的语音听起来像是目标说话人所说,同时保持语义信息不变。当前,主流的VC技术大多数都是在平行语料条件下实现的,但实际中,对低资源的藏语来说,平行语料的获取代价很大,声学特征的对齐也容易出现问题。因此,本文以研究藏语语音转换为目的,重点分别研究了平行、非平行语料条件下的藏语VC,其主要工作如下:1.梳理语音转换的基本流程,使用WORLD声码器进行语音声学参数的提取及语音合成工作。2.研究了面向VC的藏语卫藏方言语料库的设计问题,建立了藏语VC的基础。文本语料需覆盖藏语卫藏方言音素的各种组合情况,力求使不同音素的出现频次尽可能均衡,以避免数据稀疏问题。得到文本语料后,在录音棚录制对应的音频语料,并进行切分标注。3.在使用平行语料条件下将深度神经网络(Deep Neural Network,DNN)、生成对抗网络(Generative Adversarial Networks,GAN)引入到藏语语音频谱参数的转换中,通过大量实验,结果表明DNN、GAN网络都能实现藏语V...
【文章来源】:西北师范大学甘肃省
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 语音转换的基本概念
1.2 研究背景
1.3 研究现状
1.3.1 语音转换技术的研究现状
1.3.2 方言语音转换技术研究现状
1.4 研究意义
1.5 论文结构
第2章 语音转换基本内容
2.1 语音信号产生的机制和模型
2.1.1 发声器官
2.1.2 语音信号生成的数学模型
2.2 语音信号的特征选取和特征提取
2.2.1 语音信号特征的选取
2.2.2 特征提取
2.3 基于WORLD的语音信号分析与合成
2.4 语音转换系统框架
2.4.1 基音频率的转换
2.4.2 频谱包络的转换
2.5 实验评估标准
2.5.1 客观评测
2.5.2 主观评测
第3章 藏语语料库的构建
3.1 藏语方言概述
3.2 藏语语料库的设计
3.2.1 文本语料设计
3.2.2 语音语料的录制
第4章 基于神经网络的藏语语音转换
4.1 平行语料库条件下的藏语语音转换
4.1.1 基于DNN的VC
4.1.2 基于GAN的VC
4.2 平行语料条件下的实验设置及结果分析
4.2.1 实验语料及预处理
4.2.2 实验设置
4.2.3 实验评测
4.3 非平行语料库条件下的藏语语音转换
4.3.1 基于CycleGAN的 VC
4.3.2 基于StarGAN的 VC
4.4 非平行语料条件下的实验设置及结果分析
4.4.1 实验语料及预处理
4.4.2 实验设置
4.4.3 实验评测
第5章 总结与展望
5.1 总结
5.2 展望
参考文献
致谢
个人简历、在学期间发表的学术论文及研究成果
【参考文献】:
期刊论文
[1]藏语口语语音语料库的设计与研究[J]. 黄晓辉,李京,马睿. 计算机工程与应用. 2018(13)
[2]倒谱本征空间结构化高斯混合模型语音转换方法[J]. 李阳春,俞一彪. 声学学报. 2015(01)
[3]藏语新词术语规范化是“紧迫的、急需解决的一项重大任务”——解读热地同志在全国藏语新词术语标准化工作委员会三届二次会议上的讲话[J]. 楚翘. 中国西藏(中文版). 2014(04)
[4]汉语普通话与沈阳方言转换的研究[J]. 贾珈,蔡莲红,李明,张帅. 清华大学学报(自然科学版). 2009(S1)
[5]与听力学相关的语音学知识[J]. 王树峰. 中国听力语言康复科学杂志. 2006(02)
[6]一种高清晰度、高自然度的汉语文语转换系统[J]. 初敏,吕士楠. 声学学报. 1996(S1)
博士论文
[1]基于神经网络的统计参数语音合成方法研究[D]. 胡亚军.中国科学技术大学 2018
[2]语音转换的关键技术研究[D]. 李波.国防科学技术大学 2005
硕士论文
[1]基于CycleGAN网络实现非平行语料库条件下的语音转换[D]. 李涛.大连理工大学 2018
[2]汉藏双语跨语言语音转换中韵律控制方法的研究[D]. 贾浩洁.西北师范大学 2016
[3]汉藏双语跨语言语音转换方法的研究[D]. 王振文.西北师范大学 2015
[4]基于PAD三维情绪模型的情感语音转换与识别[D]. 周慧.西北师范大学 2009
本文编号:3181889
【文章来源】:西北师范大学甘肃省
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 语音转换的基本概念
1.2 研究背景
1.3 研究现状
1.3.1 语音转换技术的研究现状
1.3.2 方言语音转换技术研究现状
1.4 研究意义
1.5 论文结构
第2章 语音转换基本内容
2.1 语音信号产生的机制和模型
2.1.1 发声器官
2.1.2 语音信号生成的数学模型
2.2 语音信号的特征选取和特征提取
2.2.1 语音信号特征的选取
2.2.2 特征提取
2.3 基于WORLD的语音信号分析与合成
2.4 语音转换系统框架
2.4.1 基音频率的转换
2.4.2 频谱包络的转换
2.5 实验评估标准
2.5.1 客观评测
2.5.2 主观评测
第3章 藏语语料库的构建
3.1 藏语方言概述
3.2 藏语语料库的设计
3.2.1 文本语料设计
3.2.2 语音语料的录制
第4章 基于神经网络的藏语语音转换
4.1 平行语料库条件下的藏语语音转换
4.1.1 基于DNN的VC
4.1.2 基于GAN的VC
4.2 平行语料条件下的实验设置及结果分析
4.2.1 实验语料及预处理
4.2.2 实验设置
4.2.3 实验评测
4.3 非平行语料库条件下的藏语语音转换
4.3.1 基于CycleGAN的 VC
4.3.2 基于StarGAN的 VC
4.4 非平行语料条件下的实验设置及结果分析
4.4.1 实验语料及预处理
4.4.2 实验设置
4.4.3 实验评测
第5章 总结与展望
5.1 总结
5.2 展望
参考文献
致谢
个人简历、在学期间发表的学术论文及研究成果
【参考文献】:
期刊论文
[1]藏语口语语音语料库的设计与研究[J]. 黄晓辉,李京,马睿. 计算机工程与应用. 2018(13)
[2]倒谱本征空间结构化高斯混合模型语音转换方法[J]. 李阳春,俞一彪. 声学学报. 2015(01)
[3]藏语新词术语规范化是“紧迫的、急需解决的一项重大任务”——解读热地同志在全国藏语新词术语标准化工作委员会三届二次会议上的讲话[J]. 楚翘. 中国西藏(中文版). 2014(04)
[4]汉语普通话与沈阳方言转换的研究[J]. 贾珈,蔡莲红,李明,张帅. 清华大学学报(自然科学版). 2009(S1)
[5]与听力学相关的语音学知识[J]. 王树峰. 中国听力语言康复科学杂志. 2006(02)
[6]一种高清晰度、高自然度的汉语文语转换系统[J]. 初敏,吕士楠. 声学学报. 1996(S1)
博士论文
[1]基于神经网络的统计参数语音合成方法研究[D]. 胡亚军.中国科学技术大学 2018
[2]语音转换的关键技术研究[D]. 李波.国防科学技术大学 2005
硕士论文
[1]基于CycleGAN网络实现非平行语料库条件下的语音转换[D]. 李涛.大连理工大学 2018
[2]汉藏双语跨语言语音转换中韵律控制方法的研究[D]. 贾浩洁.西北师范大学 2016
[3]汉藏双语跨语言语音转换方法的研究[D]. 王振文.西北师范大学 2015
[4]基于PAD三维情绪模型的情感语音转换与识别[D]. 周慧.西北师范大学 2009
本文编号:3181889
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3181889.html