当前位置:主页 > 科技论文 > 信息工程论文 >

跨越说话人及语言差异的语音生成

发布时间:2020-07-14 10:54
【摘要】:跨越说话人及语言的语音生成是语音信号处理领域当中的重要研究方向,该问题又可分为两个子问题:1)跨越说话人的语音生成,即语音转换;2)跨越说话人及语言的语音生成,即跨语言语音合成。其中语音转换关注于转换说话人特征,即在不改变文本信息的前提下将源说话人的语音改变为目标说话人的语音使其带有目标说话人的音色和韵律。跨越说话人的语音合成专注于给定目标说话人第一语言语音数据,借助第二语言参照说话人的帮助为目标说话人量身定做第二语言语音合成器。跨越说话人及语言的语音生成在许多领域具有广泛的应用价值及实际需求,然而受限于实际场景中的数据量以及建模方法的性能,目前跨越说话人及语言所合成的语音的自然度及说话人相似度都不能令人满意,离工业界产品的需求还有相当长的距离。本论文针对语音转换及跨语言语音合成两个子问题在技术框架构建、技术改进方面进行了深入而系统的研究。本论文的具体研究内容和研究成果如下。首先,针对有平行训练数据的情况的语音转换场景,本论文对基于神经网络的语音转换训练准则进行了技术分析与改进,提出了最小化序列误差的神经网络训练准则,该训练准则一方面在人工神经网络误差反向传播训练中考虑到了整个序列的信息,另一方面消除了基于神经网络的语音生成回归模型在训练阶段优化目标和测试阶段合成目标不一致的问题。此外本文还利用神经网络将频谱和基频联合转换。实验证明基于最小化序列误差的神经网络训练准则比基于帧误差的训练准则更适合解决语音生成的回归问题。在CMU ARCTIC数据库测试集上对数谱距离(LSD)比基于神经网络的基线系统降低了0.15dB,主观测试中转换后的语音的自然度(60%vs.22%)及说话人的相似度(65%vs.35%)也都比基线系统得到了提高。其次,提出了只利用目标说话人的语音数据的一种基于说话人无关的神经网络声学(SI-DNN)模型及KL散度的完整语音转换技术框架(KLD-DNN)。说话人无关的深度神经网络输出的概率音素空间用来去除源说话人和目标说话人之间的声学差异,KL散度用来衡量不同声学单元在此音素空间的差异。之后根据目标说话人声学单元的不同,1)有监督场景下基于TTS senone;2)无监督场景下基于音素类;3)无监督场景下基于语音帧;采用了了不同的声学轨迹平滑后处理方法。实验证明基于说话人无关的神经网络及KL散度的语音转换技术框架显著超越了需要上述平行训练数据的基于神经网络回归模型的系统。在CMU ARCTIC数据库测试集上LSD比基于序列误差的神经网络语音转换模型降低了0.5dB。在主观测试中,语音自然度(91%vs.6%)及说话人相似度(88%vs.7%)两项指标显著超越了上述基于序列误差的神经网络模型的系统。第三,基于前面提出的利用说话人无关的深度神经网络去除源说话人和目标说话人之间的声学差异的思想,提出了在音素空间中单元帧拼接并利用WaveNet声码器合成语音的框架。WaveNet声码器不再依赖语音生成机制(如源-滤波器模型)的任何假设,而是利用卷积神经网络直接为语音采样点序列建模。实验证明,基于音素空间中的单元帧拼接及WaveNet框架方法在CMU ARCTIC数据库上对比上述基于KLD-DNN的方法在主观测试中取得了显著的进步,语音自然度(80%vs.7%)和说话人相似度(76%vs.8%)均获得了更高的偏好度。最后,提出了基于说话人无关的神经网络声学模型及KL散度跨语言语音合成技术框架,基于不同语言的语音在次音素或帧级别上在一定程度上可以部分共享同一音素空间的前提假设,利用第一语言训练出来的深度神经网络声学模型消除目标说话人第一语言语音及参照说话人第二语言语音的声学差异。在有监督情况下利用最小化KL散度对目标说话人第一语言决策树模型的叶节点及参照说话人第二语言决策树模型的叶节点进行一一映射;在无监督情况下,利用基于KL散度的权值和目标说话人第一语言语音数据对参照说话人的第二语言决策树模型的叶节点进行填充,从而得到目标说话人第二语言的决策树模型,实现跨越说话人及语言的语音生成。实验证明此方法比之前基于轨迹拼接的基线系统取得了显著的进步。测试集的对数谱距离(LSD)显著下降了0.89dB,主观测试中说话人相似度DMOS分比基线系统提升了0.6分(2.9分-3.5分)。本文层层递进提出了三种语音转换的方法:1)基于序列误差最小化的神经网络;2)基于KL散度和DNN的语音转换;3)基于单元帧拼接及WaveNet的语音转换。分别有效地解决了1)语音转换神经网路训练目标与测试目标不一致;2)如何有效去除不同说话人之间的声学差异;3)传统声码器合成转换语音自然度差这三个问题。三种方法较基线系统逐步地显著提升了语音转换后的语音自然度和说话人相似度。之后又提出了基于KL散度和DNN的跨语言语音合成,解决了跨语音合成不同语言之间如何消除声学差异的问题,显著提升了跨语言语音合成系统合成语音的说话人相似度。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:TN912.3

【相似文献】

相关期刊论文 前10条

1 李稀敏;洪青阳;黄晓丹;;基于说话人的音频分割与聚类[J];心智与计算;2010年02期

2 刘广现;巧用语言逆效应教学[J];语文教学通讯;1994年06期

3 李敬阳;李锐;王莉;王晓笛;;基于变分贝叶斯改进的说话人聚类算法[J];数据采集与处理;2017年01期

4 叶于林;杨波;莫建华;刘夏;;基于说话人辨识的自上而下听觉显著性注意模型[J];计算机系统应用;2017年07期

5 陈新仁;;说话人用意的认知加工机制:基于误解分析的证据[J];外语教学;2016年04期

6 花冬萍;;润泽有效的课堂,从引导学生学会倾听开始[J];快乐阅读;2016年24期

7 杨晓帆;;那些有故事的“说话人”[J];长江丛刊;2017年01期

8 唐一鸣;;汉日位移动词比较研究[J];唐山文学;2017年02期

9 陶艳;;简约而不简单的英语实用口语[J];初中生辅导;2016年36期

10 董文英;;临时性词汇及其语用功能探析[J];青年文学家;2017年09期

相关会议论文 前10条

1 谭良杰;刘亚丽;;噪声对跨语种说话人音色感知的影响[A];2019年全国声学大会论文集[C];2019年

2 金乃高;侯刚;王学辉;李非墨;;基于主动感知的音视频联合说话人跟踪方法[A];2010年通信理论与信号处理学术年会论文集[C];2010年

3 马勇;鲍长春;夏丙寅;;基于辨别性深度信念网络的说话人分割[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年

4 王海燕;杨鸿武;甘振业;裴东;;基于说话人自适应训练的汉藏双语语音合成[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年

5 何磊;方棣棠;吴文虎;;说话人聚类与模型自适应结合的说话人自适应方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年

6 李经伟;;语体转换与角色定位[A];全国语言与符号学研究会第五届研讨会论文摘要集[C];2002年

7 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年

8 罗海风;龙长才;;多话者环境下说话人辨识听觉线索研究[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年

9 白俊梅;张树武;徐波;;广播电视中的目标说话人跟踪技术[A];第八届全国人机语音通讯学术会议论文集[C];2005年

10 索宏彬;刘晓星;;基于高斯混合模型的说话人跟踪系统[A];第八届全国人机语音通讯学术会议论文集[C];2005年

相关重要报纸文章 前10条

1 ;做一名积极的倾听者[N];中国纺织报;2003年

2 唐志强;不听别人说话,也能模仿其口音[N];新华每日电讯;2010年

3 兰州大学外国语学院 樊林洲;语言进化的生态机制[N];中国社会科学报;2016年

4 华中师范大学语言与语言教育研究中心 侯钺沛;从“高大上”到“然并卵”[N];语言文字周报;2016年

5 中科院自动化所生物特征认证与测评中心 白俊梅;听到的真实吗?[N];计算机世界;2003年

6 曹文彪;生气与高致[N];文学报;2006年

7 中国科学院自动化研究所模式识别国家重点实验室 辛乐邋陶建华;说话人头像技术:让语音可视[N];计算机世界;2007年

8 攀登;为这样的提议叫好[N];福建日报;2013年

9 记者 蒋荣耀 江南鸾 李旖露;“黑科技”野心:能听会说可办事[N];深圳商报;2018年

10 全国政协委员 本报高级编辑 詹国枢;咱们都来说真话[N];人民日报海外版;2010年

相关博士学位论文 前10条

1 解奉龙;跨越说话人及语言差异的语音生成[D];哈尔滨工业大学;2019年

2 田野;麦克风网络中基于分布式卡尔曼滤波的说话人跟踪方法研究[D];大连理工大学;2018年

3 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年

4 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年

5 吕声;说话人转换方法的研究[D];华南理工大学;2004年

6 屈丹;电话信道下语言辨识技术研究[D];中国人民解放军信息工程大学;2005年

7 孙俊;基于激励源及其韵律特征的源—目标说话人声音转换研究[D];中国科学技术大学;2006年

8 王坚;语音识别中的说话人自适应研究[D];北京邮电大学;2007年

9 金乃高;音视频联合说话人定位与跟踪方法研究[D];大连理工大学;2008年

10 徐利敏;说话人辨认中的特征变换和鲁棒性技术研究[D];南京理工大学;2008年

相关硕士学位论文 前10条

1 付慧娟;“最X的NP也Y”结构研究[D];辽宁大学;2019年

2 张瑶;表主动“我让你(们)+VP”结构研究[D];辽宁大学;2019年

3 张敏;评价构式“有多X就有多Y”研究[D];华中师范大学;2019年

4 邱银强;重庆方言语气研究[D];广西民族大学;2019年

5 田彬;认知模式下汉语认识情态的翻译策略研究[D];喀什大学;2019年

6 权成实;关于表示指示的接头词“当”“本”的对比研究[D];北京外国语大学;2019年

7 彭语盈;现代汉语“别”的分化及其情态化研究[D];渤海大学;2019年

8 李t-琛;“还VP呢”构式的分类及功能研究[D];渤海大学;2019年

9 周晨;表提醒的“看”“没看”及其与“别看”的比较[D];渤海大学;2019年

10 张杰;揣测类评注性副词“搞不好”的用法及功能研究[D];吉林大学;2019年



本文编号:2754875

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2754875.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3d0d9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com