基于HMM的中文情感语音合成的研究

发布时间：2019-10-12 13:47

【摘要】：语音是人类最直接、最有效的交流方式。随着计算机智能和情感计算的发展,人们对语音处理技术的要求越来越高。本文针对多样化的语音,提出了基于HMM的语音合成方法,实现了系统的自动训练与构建。在此基础上,研究了语音的情感分类方法以及情感语音的特征分析,通过分析情感语音在基频、时长、能量和上下文等方面的特征,总结出情感语音和中性语句之间的关联。为了合成出高质量的情感语句,特别引入了PAD三维情感模型,将离散化的情感语音扩展为可计算的量化语音。最后,通过语音合成器合成目标情感语音。本文采用PAD情感状态模型分析语音的情感特征,这为今后语音的情感处理研究提供了理论依据。通过Boosting-GMM算法来预测建模,为后续的目标情感语音合成奠定了良好的实验基础和分析依据。本文主要研究工作和研究成果如下：1.提出一种基于统计声学模型的语音合成方法,建立了一个完整的可训练的语音合成系统框架。该系统对输入的语音数据进行声学参数建模,并以训练得到的统计模型为基础构建相应的合成系统,能够很好地满足目前对多样化和高表现力的语音合成需求。2.采用了PAD情感状态模型对情感语音特征参数进行了定量分析,得出不同情感状态与PAD三个维度之间的映射关系,为后续的目标情感语音合成提供了理论基础,提高了合成语音的音质。3.通过Boosting-GMM算法进行情感预测建模。针对实验中的四种目标情感,建立四种弱预测模型。每个弱预测模型由一种基本的预测模型和其它辅助预测模型组成。实验对比了基于GMM和基于Boosting-GMM的特征预测模型的效果。由于Boosting-GMM实现了重新采样的过程,在训练集中增大了包含大预测误差的样本比例,所以基于Boosting-GMM算法对于GMM算法的预测模型有更高的预测准确率。最后通过预测模型得到的参数和STRAIGHT算法合成出目标情感语音。实验表明,通过该方法合成的情感语音具有较好的音质和自然度。
【图文】：

情感,情感状态,维度

Ｆｉｇ邋３．１邋Ｅｍｏｔｉｏｎ邋６NB口化５５｛0１１邋ｂａｓｅｄ邋０１１邋ｅｍｏｔｉｏｎ邋ｗｈｅｅｌ逡逑在连续空间中描述惰感的维度论中，还有一个重要的模型是由Ｃｏｗｉｅ等研究逡逑者提出的激励－评价（Ａｃｔｉｖａｔｉｏｎ—Ｅｖａｌｕａｔｉｏｎ邋）模型，如图３．２所示，该模型认为不同逡逑情感是不断变化的，根据其在维度空间中的距离来体现不同的情感状态。逡逑激励－评价模型中包含两个二维空间：激活度（Ａｃｔｉｖａｔｉｏｎ）和评价度逡逑（Ｅｖａｌｕａｔｉｏｎ邋）。激活度表示与情感状态相关联的机能激活程度，评价度表示其理论逡逑基础来自于正负情感的分离程度。横轴表示评价度，指引起情感的客观事物评价逡逑２３逡逑

分布情况,情感,均值,分布情况

图３．邋４不同情感下Ｆ０范围的分布逡逑Ｋｇ邋３．４邋Ｄｉｓｔｒｉｂｕｔｉｏｎ邋ｆｏｒ邋Ｆ０邋ｉ＊ａｎｇｅ邋ｏｆ邋ｄｉｆｆｅｉ＊ｅｎｔ邋ｅｍｏｔｉｏｎｓ逡逑从ｗ上图表中分析得出，不同情感状态下的基频相关特性参数分布有很大的逡逑差异，离兴情感下的Ｆ０的均值，Ｆ０最大值和最小值Ｗ及Ｆ０范围明显较大。惊奇逡逑的基频均值较大，但基频变化范围不大。悲伤的基频相关的特征参数都比中性语逡逑调的要小，基频均值最低。对于生气的情感语句，它的基频均值和基频变化范围逡逑较大。男性的基频相关特征参数在这几种情感下均低于女性基频相关参数。逡逑同时，，由图表可知，不同情感状态下Ｆ０均值和Ｆ０最大值整体变化相对Ｆ０最逡逑小值较小，这意味Ｆ０均值和Ｆ０最大值比Ｆ０最小值更适合来描述情感语音的基频逡逑特征。逡逑３．３．３情感语音的时长分析逡逑对情感语音的时长分析是通过语句的长短来判断相应的情感类型。计算的情逡逑感语句从语音数据开始到结束的持续时间，也包括停顿的部分。实验中，我们直逡逑
【学位授予单位】：合肥工业大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TN912.3

【相似文献】