语音合成中的神经网络声学建模方法研究
发布时间:2018-05-27 11:20
本文选题:语音合成 + 隐马尔可夫模型 ; 参考:《中国科学技术大学》2016年博士论文
【摘要】:近些年来,统计参数语音合成(Statistical Parametric Speech Synthesis, SPSS)已经发展成为和单元挑选与波形拼接相并列的一种主流语音合成方法。其中,基于隐马尔可夫模型(Hidden Markov Model, HMM)的统计参数语音合成是其最为常见的实现方法。该方法借鉴了基于HMM的自动语音识别(Automatic Speech Recognition, ASR)中的一些成熟算法,并且针对语音合成任务的特点,衍生出多空间概率分布、最大似然参数生成等一系列关键技术。它相对于单元挑选与波形拼接方法,具有系统构建自动化程度高、存储空间小、合成语音平稳流畅、拓展能力强等优点。但是该方法在合成语音的自然度和音质上与单元挑选与波形拼接方法相比仍然有一定的差距。基于HMM的统计参数语音合成中声学建模能力的不足是导致这一问题的主要原因之一。随着深度神经网络(Deep Neural Network, DNN)在自动语音识别中的成功应用,自2013年以来基于神经网络的统计声学建模方法也成为了语音合成研究领域的研究热点,并取得了积极进展。神经网络相对传统统计参数语音合成中使用的HMM模型和基于决策树聚类的高斯状态分布,对于高维声学特征的维间相关性以及输入文本特征与输出声学特征之间的复杂映射关系有着更强的建模能力。因此,本文围绕统计参数语音合成中基于神经网络的声学建模方法开展研究工作。针对频谱特征建模中的高维谱包络维间相关性描述问题,提出了基于神经自回归分布估计模型(Neural Autoregressive Distribution Estimator, NADE)的HMM状态分布建模方法和基于深度条件受限玻尔兹曼机模型(Deep Conditional Restricted Boltzmann Machine, DCRBM)的频谱特征建模方法,提高了频谱特征建模精度,改善了合成语音的音质和自然度:考虑到基频产生的叠加特性和基频感知的长时特性,提出了基于DNN的层次化基频建模方法,降低了基频特征的预测误差,提高了合成语音的自然度:最后,探索了一种端到端的语音合成声学建模方法,利用基于注意力的递归序列生成器(Attention-based Recurrent Sequence Generator, ARSG),实现了基于神经网络的语音合成中对于特征对齐和特征预测的一体化建模。整篇文章的安排如下:第一章是绪论,简要介绍了语音的产生机理,回顾了语音合成技术的发展历史以及几种常见的语音合成方法。第二章首先介绍了基于HMM的统计参数语音合成方法,包括HMM的基本原理、基于HMM的语音合成系统框架以及四个关键技术,分析了该方法的优缺点。其次回顾了神经网络的发展历史以及其在语音合成声学建模中的已有应用。最后阐述了本文结合神经网络进行语音合成声学建模研究的动机与出发点。第三章提出了一种基于神经自回归分布估计模型(Neural Autoregressive Dis-tribution Estimator, NADE)的频谱状态建模方法。已有的基于受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)的谱包络状态建模方法,使用RBM模型取代高斯分布用于描述HMM中各状态的频谱特征分布,取得了一定的改进效果。但是RBM模型存在输出概率以及参数梯度无法精确估计的不足,而NADE模型可以将观察值的输出概率分解为一系列可简单计算的条件概率乘积的形式。因此,本文提出使用NADE模型进行HMM各状态谱包络特征分布的建模,主客观实验结果表明该方法可以有效提高建模精度以及合成语音音质。第四章针对当前基于DNN的统计参数语音合成无法有效建模频谱特征维间相关性和分布多模特性的问题,提出了基于深度条件受限玻尔兹曼机(Deep Conditional Restricted Boltzmann Machine, DCRBM)的频谱特征建模与预测方法,并实验分析了多种不同的DCRBM预训练机制。该方法使用RBM作为DNN的输出层,将DNN的特征问关系建模能力与RBM的高维特征表征能力相结合,不仅能够体现给定文本特征情况下,声学特征条件概率分布的多模特性,也可以对高维谱包络的维间相关性进行有效描述。测试结果表明,该方法相对于传统的HMM建模方法、以及基于DNN和深度混合密度网络(Deep Mixture Density Network, DMDN)的频谱特征建模方法,均能取得更优的合成语音音质。第五章将对基于DNN的基频特征建模方法进行研究。在分析了传统基频建模方法的局限性之后,考虑到基频产生的叠加特性和基频感知的长时特性,本章提出了基于DNN的层次化基频建模方法,设计实现了层叠式DNN以及并行式DNN两种模型框架。主客观测试结果表明该方法能够有效地降低基频预测误差并提升合成语音的自然度。第六章对端到端的语音合成方法进行了探索性研究。端到端的语音合成旨在将前端文本分析和后端声学建模相融合,实现文本与声学这两种不等长序列之间的直接转换。本章利用基于注意力的递归序列生成器(Attention-based Recurrent Sequence Generator, ARSG),,实现了基于神经网络的语音合成中对于特征对齐和特征预测的一体化建模,在不依赖HMM的情况下合成出了具有较高平滑度和可懂度的语音。第七章对全文进行了总结。
[Abstract]:The speech synthesis of statistical parameters based on Hidden Markov Model ( HMM ) is one of the most common methods in the field of speech synthesis . This paper presents a method of modeling and predicting the spectral characteristics of the speech synthesis based on the neural network , which is based on the theory of HMM , the framework of speech synthesis system based on HMM and four key techniques . ARSG implements the integration modeling of feature alignment and feature prediction in speech synthesis based on neural network , and synthesized speech with high smoothness and intelligibility without relying on HMM . Chapter 7 summarizes the full text .
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TN912.33
本文编号:1941831
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1941831.html