融合发音机理的统计参数语音合成方法研究

发布时间:2017-04-20 20:04

  本文关键词:融合发音机理的统计参数语音合成方法研究,由笔耕文化传播整理发布。


【摘要】:近二十年来,统计参数语音合成方法发展迅速,逐步成为与单元挑选与波形拼接方法相并列的一种主流语音合成方法,隐马尔可夫模型(Hidden Markov Model, HMM)是统计参数语音合成中最为常用的声学模型形式。相比于单元挑选与波形拼接方法,基于HMM的参数合成方法具有系统构建自动化程度高、可快速自适应、合成语音平滑流畅、系统尺寸小等优点,但是该方法在合成语音的音质与自然度上和单元挑选与波形拼接方法相比仍有差距。此外,现阶段该方法在实现多样化及个性化语音合成时的性能仍不够理想。一方面,语音学知识难以融入声学特征预测过程,对于合成语音特征的控制存在较强的数据依赖性;另一方面,在利用少量目标发音人数据与模型自适应算法实现合成系统话者转换时,合成语音的自然度以及与目标发音人的相似度仍有待提升。 现阶段统计参数语音合成方法所使用的声学模型结构缺乏对于语音产生机理的描述,是产生上述不足的原因之一。因此,本文围绕统计参数语音合成中融合发音机理的声学建模方法开展研究工作,将发音动作特征和共振峰特征作为中间层表征,构建了“语言学特征-中间层表征-声学特征”的声学模型结构,实现了对于实际语音产生中的层次化信息处理过程的模拟。首先,本文研究结合发音动作特征的声学建模方法,构建了中文多发音人连续语流发音动作特征数据库,验证了双流HMM模型对于实现发音动作特征与声学特征联合建模的有效性,提出了结合目标-逼近模型与多元回归隐马尔科夫模型(Multiple Regression Hidden Markov Model, MRHMM)的声学建模方法,实现了基于语音学规则的合成语音特征控制;其次,本文将共振峰特征作为音素序列与可观测声学特征之间的中间表达,提出了基于隐藏式轨迹模型(Hidden Trajectory Model, HTM)的语音合成频谱建模方法,提高了频谱特征的预测精度与合成语音的自然度,实现了对于合成语音共振峰频率与带宽等特征的灵活控制,并且进一步研究了HTM模型自适应方法,提高了话者转换合成语音的自然度与相似度。 整篇文章的安排如下: 第一章是绪论,介绍语音产生机理,并简要回顾几种常见的语音合成方法。 第二章具体介绍基于HMM的统计参数语音合成方法,包括HMM的基本概念、基于HMM的语音合成系统框架以及其中的关键技术点,最后通过分析当前方法的优缺点,阐述本文研究工作的动机与出发点。 第三章着重介绍基于双流HMM的发音动作特征与声学特征的联合建模方法。首先,完成了多发音人中文连续语流发音动作特征数据库的录制,包括录音环境的搭建以及对于采集的发音动作特征的预处理等;然后,实现了基于双流HMM的中文连续语流发音动作特征与声学特征的联合建模;最后,研究了不同的上下文属性、模型聚类方式及流间相关性假设对于发音动作特征与声学特征的联合建模性能的影响。 第四章具体介绍结合目标-逼近模型与MRHMM模型的可控语音合成方法。首先,提出了基于目标-逼近模型的发音动作特征预测方法,该模型相比HMM模型具有参数数目较少且物理意义明确的优点;其次,在第三章研究工作基础上,设计实现了结合目标-逼近模型和MRHMM模型的可控语音合成方法,并通过主客观测试验证了其结合语音学知识实现合成语音特征控制的有效性;最终,完成了结合发音动作特征的可控语音合成演示系统的开发。 第五章介绍基于HTM模型的统计参数语音合成方法。首先,介绍了HTM模型的基本框架,该模型将由目标-逼近模型产生的共振峰轨迹作为音素序列与可观测声学特征之间的隐含中间层,并利用非线性变换描述共振峰特征与声学特征之间的映射关系;然后,提出了基于HTM模型的统计参数语音合成方法,设计实现了相应的模型训练与参数生成算法,并且通过实验证明了该方法在降低频谱特征预测误差、提高合成语音自然度、实现对于合成语音共振峰特征灵活控制等方面的有效性。 第六章介绍基于HTM模型自适应的语音合成话者转换方法。首先,提出了HTM框架下的模型自适应方法,该方法对于HTM模型中的共振峰相关参数和残差相关参数分别进行转换,并通过组合两者转换实现最终的模型自适应;然后,将HTM模型自适应方法应用于语音合成中的话者转换,实验结果表明该方法可以取得比传统最大似然线性回归(Maximum Likelihood Linear Regression, MLLR)方法更优的转换后合成语音自然度与相似度。 第七章对全文进行了总结。
【关键词】:语音合成 隐马尔可夫模型 发音动作特征 隐藏式轨迹模型 共振峰特征 模型自适应
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TN912.3
【目录】:
  • 摘要5-7
  • ABSTRACT7-9
  • 目录9-13
  • 表格索引13-14
  • 插图索引14-17
  • 第一章 绪论17-25
  • 1.1 语音产生机理17-19
  • 1.2 语音合成技术概述19-20
  • 1.3 语音合成方法简介20-23
  • 1.3.1 基于物理机理的语音合成方法20-21
  • 1.3.2 源-滤波器语音合成方法21-22
  • 1.3.3 基于波形拼接的语音合成方法22-23
  • 1.3.4 基于统计建模的参数语音合成方法23
  • 1.4 本论文的研究目标和内容概述23-25
  • 第二章 基于隐马尔可夫模型的统计参数语音合成方法25-39
  • 2.1 HMM简介25-28
  • 2.1.1 马尔可夫链25-26
  • 2.1.2 隐马尔可夫模型(HMM)26-27
  • 2.1.3 HMM用于语音建模27-28
  • 2.2 基于HMM的统计参数语音合成28-31
  • 2.2.1 模型训练阶段29-30
  • 2.2.2 语音合成阶段30-31
  • 2.3 关键技术31-35
  • 2.3.1 STRAIGHT语音分析合成算法31-32
  • 2.3.2 基于决策树的模型聚类算法32-33
  • 2.3.3 基于多空间概率分布HMM的基频建模方法33-34
  • 2.3.4 考虑动态特征约束的参数生成算法34-35
  • 2.4 基于HMM统计参数语音合成方法的优缺点35-37
  • 2.4.1 优点35-36
  • 2.4.2 不足36
  • 2.4.3 已有的改进方法36-37
  • 2.5 本文研究内容的出发点37-38
  • 2.6 本章小结38-39
  • 第三章 基于双流隐马尔可夫模型的发音动作特征与声学特征联合建模方法39-57
  • 3.1 发音动作特征39-40
  • 3.2 联合建模方法40-42
  • 3.3 中文发音动作特征数据库录制42-48
  • 3.3.1 EMA数据录制42-45
  • 3.3.2 EMA数据预处理45-48
  • 3.4 实验结果及分析48-56
  • 3.4.1 反向映射方法48-49
  • 3.4.2 参数生成及迭代更新49-51
  • 3.4.3 数据库51
  • 3.4.4 系统构建51-53
  • 3.4.5 上下文属性的影响53-54
  • 3.4.6 聚类方式的影响54-55
  • 3.4.7 流间相关性建模的影响55-56
  • 3.5 本章小结56-57
  • 第四章 结合目标-逼近模型与多元回归隐马尔可夫模型的可控语音合成方法57-75
  • 4.1 问题的提出57
  • 4.2 基于MRHMM的统计参数语音合成方法57-61
  • 4.3 文本到发音动作特征预测方法61-62
  • 4.4 基于目标-逼近模型的预测方法62-65
  • 4.4.1 目标-逼近模型62-64
  • 4.4.2 发音目标的训练64-65
  • 4.5 实验结果及分析65-70
  • 4.5.1 数据库65-66
  • 4.5.2 发音目标的梯度下降估计66-67
  • 4.5.3 γ参数对发音动作特征生成的影响67
  • 4.5.4 发音动作特征的预测性能评测67-68
  • 4.5.5 合成语音可控性测试68-70
  • 4.6 方法改进70-73
  • 4.6.1 采用音素相关γ_p70-72
  • 4.6.2 复杂音素拆分72-73
  • 4.7 融合发音动作特征的可控语音合成演示系统73-74
  • 4.8 本章小结74-75
  • 第五章 基于隐藏式轨迹模型的统计参数语音合成方法75-97
  • 5.1 问题的提出75-76
  • 5.2 隐藏式轨迹模型76-82
  • 5.2.1 更新倒谱预测残差的均值79-80
  • 5.2.2 更新倒谱预测残差的方差80-81
  • 5.2.3 更新共振峰目标的均值81-82
  • 5.2.4 更新共振峰目标的方差82
  • 5.3 基于HTM的统计参数语音合成82-84
  • 5.3.1 模型训练82-84
  • 5.3.2 参数生成84
  • 5.4 实验及分析84-95
  • 5.4.1 数据库84-85
  • 5.4.2 合成语音自然度评测85-88
  • 5.4.3 合成系统可控性评测88-95
  • 5.5 本章小结95-97
  • 第六章 基于隐藏式轨迹模型自适应的语音合成话者转换方法97-111
  • 6.1 问题的提出97
  • 6.2 HTM模型自适应方法97-103
  • 6.2.1 对共振峰映射得到的倒谱部分进行转换98-99
  • 6.2.2 对倒谱预测残差部分进行转换99-100
  • 6.2.3 对共振峰特征进行转换100-103
  • 6.2.4 组合的转换方法103
  • 6.3 语音合成话者转换实验103-109
  • 6.3.1 数据库103
  • 6.3.2 系统构建103
  • 6.3.3 客观评测103-106
  • 6.3.4 主观评测106-109
  • 6.4 本章小结109-111
  • 第七章 总结111-113
  • 7.1 本文的主要贡献与创新点111
  • 7.2 后续的研究工作111-113
  • 参考文献113-119
  • 致谢119-121
  • 在读期间发表的学术论文与取得的研究成果121

【参考文献】

中国期刊全文数据库 前2条

1 单岩,魏志刚,梁建国;反向工程中三坐标测量重定位整合[J];模具工业;2001年08期

2 蔡明琦;凌震华;戴礼荣;;基于隐马尔科夫模型的中文发音动作参数预测方法[J];数据采集与处理;2014年02期


  本文关键词:融合发音机理的统计参数语音合成方法研究,,由笔耕文化传播整理发布。



本文编号:319404

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/319404.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9d08f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com