基于DNN的汉语到藏语跨语言语音转换的研究
发布时间:2022-12-22 01:58
跨语言语音转换是人工智能研究中的一个热点方向。它通过对源说话人的语音进行分析,利用语音转换技术得到所需要的目标语音并且在音质上具有源说话人特征。藏族是中国人口较多的少数民族之一,如果能借助深度学习算法研究汉语到藏语语音的转换技术,能够很好的促进藏族地区同胞和汉族群众之间的交流,对于文化资源丰富的藏族能起到有效的保护。本文以研究汉语普通话到藏语拉萨话语音转换为目标,釆用语音识别和语音合成结合的方法,实现了基于深度神经网络(Deep neural network,DNN)的汉语到藏语的跨语言语音转换系统。并在此基础上对合成的藏语语音和语音转换后的音质进行了主、客观评测。本论文的主要工作与创新如下:1.跨语言语音转换中基于DNN的语音识别方法研究。通过对汉语语音识别的研究,发现DNN在模型训练过程中截取其中部分已经训练好的网络进行特征训练,得到的新特征在语音识别效果上相比于梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征更优。首先,对DNN的模型预训练、参数修改、模型优化方面进行了研宄,并在Kaldi平台上搭建了用于语音声学特征提取的深度...
【文章页数】:49 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 引言
1.1 研究背景与意义
1.2 语音转换的研究现状
1.3 论文的组织与结构
第2章 汉语到藏语语音转换的基本框架
2.1 方法提出的背景
2.2 方法的基本框架
2.3 本章小结
第3章 基于DNN的语音识别
3.1 深度神经网络
3.2 DNN模型训练
3.2.1 网络节点函数
3.2.2 RBM模型
3.2.3 RBM的属性
3.3 DNN-HMM模型
第4章 藏语语音的合成
4.1 基于HMM的语音合成
4.2 模型预处理
4.2.1 上下文相关标注
4.2.2 问题集设计
4.2.3 决策树聚类
4.3 HMM训练
4.4 语音合成
4.5 STRAIGHT算法
4.6 本章小结
第5章 实验及测评
5.1 基于DNN的汉语语音识别系统实验
5.1.1 实验配置
5.1.2 深度特征提取
5.1.3 实验结果
5.2 合成音质的评测
5.2.1 客观评测
5.2.2 主观评测
5.3 合成语音音质的评测
5.3.1 主观评测
5.3.2 客观评测
5.4 跨语言语音转换音质的评测
5.5 本章小结
第6章 总结与展望
6.1 论文工作总结
6.2 工作展望
参考文献
攻读硕士期间的研究成果
致谢
【参考文献】:
期刊论文
[1]采用动态核特征及贝叶斯最大后验估计的语音转换方法[J]. 李娜,曾向阳,乔宇,李志锋. 声学学报. 2015(03)
[2]基于自适应粒子群优化径向基函数神经网络的语音转换[J]. 张玲华,姚绍芹,解伟超. 数据采集与处理. 2015(02)
[3]深度语音信号与信息处理:研究进展与展望[J]. 戴礼荣,张仕良. 数据采集与处理. 2014(02)
[4]基于两层神经网络的基音检测算法[J]. 王民,孙洁,贠卫国,刘利,任雪妮. 计算机工程与应用. 2014(05)
[5]基于说话人自适应训练的汉藏双语语音合成[J]. 王海燕,杨鸿武,甘振业,裴东. 清华大学学报(自然科学版). 2013(06)
博士论文
[1]语音转换的关键技术研究[D]. 李波.国防科学技术大学 2005
本文编号:3723212
【文章页数】:49 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 引言
1.1 研究背景与意义
1.2 语音转换的研究现状
1.3 论文的组织与结构
第2章 汉语到藏语语音转换的基本框架
2.1 方法提出的背景
2.2 方法的基本框架
2.3 本章小结
第3章 基于DNN的语音识别
3.1 深度神经网络
3.2 DNN模型训练
3.2.1 网络节点函数
3.2.2 RBM模型
3.2.3 RBM的属性
3.3 DNN-HMM模型
第4章 藏语语音的合成
4.1 基于HMM的语音合成
4.2 模型预处理
4.2.1 上下文相关标注
4.2.2 问题集设计
4.2.3 决策树聚类
4.3 HMM训练
4.4 语音合成
4.5 STRAIGHT算法
4.6 本章小结
第5章 实验及测评
5.1 基于DNN的汉语语音识别系统实验
5.1.1 实验配置
5.1.2 深度特征提取
5.1.3 实验结果
5.2 合成音质的评测
5.2.1 客观评测
5.2.2 主观评测
5.3 合成语音音质的评测
5.3.1 主观评测
5.3.2 客观评测
5.4 跨语言语音转换音质的评测
5.5 本章小结
第6章 总结与展望
6.1 论文工作总结
6.2 工作展望
参考文献
攻读硕士期间的研究成果
致谢
【参考文献】:
期刊论文
[1]采用动态核特征及贝叶斯最大后验估计的语音转换方法[J]. 李娜,曾向阳,乔宇,李志锋. 声学学报. 2015(03)
[2]基于自适应粒子群优化径向基函数神经网络的语音转换[J]. 张玲华,姚绍芹,解伟超. 数据采集与处理. 2015(02)
[3]深度语音信号与信息处理:研究进展与展望[J]. 戴礼荣,张仕良. 数据采集与处理. 2014(02)
[4]基于两层神经网络的基音检测算法[J]. 王民,孙洁,贠卫国,刘利,任雪妮. 计算机工程与应用. 2014(05)
[5]基于说话人自适应训练的汉藏双语语音合成[J]. 王海燕,杨鸿武,甘振业,裴东. 清华大学学报(自然科学版). 2013(06)
博士论文
[1]语音转换的关键技术研究[D]. 李波.国防科学技术大学 2005
本文编号:3723212
本文链接:https://www.wllwen.com/kejilunwen/wltx/3723212.html