基于HMM的印尼语语音合成系统设计与实现
发布时间:2021-06-29 08:21
印度尼西亚语(简称印尼语)源自于苏门答腊岛东北部的马来语,属于马来-波利尼西亚语系。世界上约有三千多万人将印尼语作为他们的母语,且大约有一亿多人将其作为第二门语言。现代马来语和印尼语都使用拉丁字母拼写,两种语言的拼写也比较接近。论文以开发印尼语文语转换应用系统为目的,设计并实现基于隐马尔可夫模型(Hidden Markov Model,HMM)的印尼语文语转换基线系统,并在此基础上探索提高语音合成自然度的方法。论文的主要工作包括:(1)音子自动切分。本文根据印尼语的语音特点,分别按声韵母结构和按音素结构确定了两类合成基元。并使用基于HMM的自动切分技术,依据两种不同的合成基元,对印尼语音子展开自动切分工作,为本文后续文转语的进一步深入研究奠定基础。(2)模型训练及语音合成的实现。本文在HTS(HMM-based Speech Synthesis System)的基础上,建立了一个完整的语音合成系统框架。首先设计了三音子上下文属性及问题集,并通过决策树聚类进行声学模型的训练,最终实现印尼语语音的合成。(3)印尼语语音合成系统的改进。本文对印尼语语音合成系统进行了三方面的改进工作。首先,对...
【文章来源】:云南大学云南省 211工程院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
一l:前向递推结构图
第二章基于HMM的语音合成??其次,面对解码问题,它与上述方法相似,不同的是,维特比解码的目的是??求得最大值…1。如图2-2所示:??卜1?t??…、?????状态转移:%??^?,(/)?腿?*^〇))??:输出概率:by(0,)??xN,??图2-2:?Viterbi算法结构示意图??设屮,(/)表示在/时刻的最大输出概率,此时由部分观测序列确定,且观测序??列处于y状态。当%⑴取得最大值时,其路径H.7,保存于2,?(_/)中。使用Viterbi??算法求取最佳序列的步骤为:??第一步:初始化%?(丨)=〇?(2-6)??第二步:根据/时刻输出的观察符号有迭代式中,(乃为:??屮,(_/)=max[T,.丨(/)〇"]办"(0,)?(2-7)??(力:叩?max?[屮丨(
进行模型训练,且模型结构可以人工修改,方便实用。所以基于HMM的语音合??成系统在语音合成领域备受研究者们的欢迎。??基于HMM的语音合成系统框架主要包括训练和合成两部分,如图2-3所示。??首先,训练部分类似于语音识别系统【261,主要区别是频谱和激励参数的不同,谱??参数主要包括梅尔倒谱系数(MFCC)和动态特征f2'激励参数主要是对基频取对??数,即基频对数(logFO)。而动态特征参数主要从语音库中提取,并且根据上下??文标注信息训练HMM模型。其次,在合成阶段,由图2-3虚线下半部分所示,首??先对输入系统中的文本进行分析,再利用训练好的状态持续时间模型进行参数估??计,从而产生相应的激励参数和频谱参数,最后由STRAIGHT?(Speech??Transformation?and?Representation?using?Adaptive?Interpolation?of?weiGHTed??spectrum),即基于自适应加权谱内插值的方法实现语音的转换和重构p8],最终产??生语音波形。??简单的讲,HMM在本实验中的应用可概括为以下几方面:??(1)音子的自动切分。此项工作主要是用2.1节中介绍的第二个问题一一解??码问题来实现
【参考文献】:
期刊论文
[1]关于咸阳市方言语音的内部分化等问题[J]. 孙立新. 咸阳师范学院学报. 2018(01)
[2]一种改进的基于Viterbi的语音切分算法[J]. 李欢欢,王金明,尹海明,徐志军,孔磊,张开礼. 通信技术. 2015(09)
[3]基于前向-后向HMM的连续语音识别系统的研究[J]. 于晓明,柏松. 计算机工程与设计. 2009(18)
[4]基于MBIC的决策树聚类算法在连续语音识别中的应用[J]. 陈国平,杜利民,付跃文,王劲林. 计算机应用. 2005(12)
[5]汉语、印尼语构词词缀差异分析[J]. 颜天惠,宗世海. 暨南大学华文学院学报. 2003(03)
[6]HMM连续语音识别中Viterbi算法的优化及应用[J]. 袁俊. 电子技术. 2001(02)
[7]LSP参数的语音分析和合成研究[J]. 杨红云,向茂楠. 北京理工大学学报. 1992(01)
博士论文
[1]语音合成音库自动标注方法研究[D]. 杨辰雨.中国科学技术大学 2014
[2]统计参数语音合成中的声学模型建模方法研究[D]. 雷鸣.中国科学技术大学 2012
[3]中文TTS系统中若干关键技术研究[D]. 黄平牧.北京邮电大学 2008
[4]基于统计声学建模的语音合成技术研究[D]. 凌震华.中国科学技术大学 2008
硕士论文
[1]基于GMM-HMM的声学模型训练研究[D]. 王为凯.华南理工大学 2016
[2]统计参数语音合成中的频谱建模及生成方法研究[D]. 孙瑜声.中国科学技术大学 2015
[3]汉藏双语跨语言统计参数语音合成的研究[D]. 王海燕.西北师范大学 2015
本文编号:3256098
【文章来源】:云南大学云南省 211工程院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
一l:前向递推结构图
第二章基于HMM的语音合成??其次,面对解码问题,它与上述方法相似,不同的是,维特比解码的目的是??求得最大值…1。如图2-2所示:??卜1?t??…、?????状态转移:%??^?,(/)?腿?*^〇))??:输出概率:by(0,)??xN,??图2-2:?Viterbi算法结构示意图??设屮,(/)表示在/时刻的最大输出概率,此时由部分观测序列确定,且观测序??列处于y状态。当%⑴取得最大值时,其路径H.7,保存于2,?(_/)中。使用Viterbi??算法求取最佳序列的步骤为:??第一步:初始化%?(丨)=〇?(2-6)??第二步:根据/时刻输出的观察符号有迭代式中,(乃为:??屮,(_/)=max[T,.丨(/)〇"]办"(0,)?(2-7)??(力:叩?max?[屮丨(
进行模型训练,且模型结构可以人工修改,方便实用。所以基于HMM的语音合??成系统在语音合成领域备受研究者们的欢迎。??基于HMM的语音合成系统框架主要包括训练和合成两部分,如图2-3所示。??首先,训练部分类似于语音识别系统【261,主要区别是频谱和激励参数的不同,谱??参数主要包括梅尔倒谱系数(MFCC)和动态特征f2'激励参数主要是对基频取对??数,即基频对数(logFO)。而动态特征参数主要从语音库中提取,并且根据上下??文标注信息训练HMM模型。其次,在合成阶段,由图2-3虚线下半部分所示,首??先对输入系统中的文本进行分析,再利用训练好的状态持续时间模型进行参数估??计,从而产生相应的激励参数和频谱参数,最后由STRAIGHT?(Speech??Transformation?and?Representation?using?Adaptive?Interpolation?of?weiGHTed??spectrum),即基于自适应加权谱内插值的方法实现语音的转换和重构p8],最终产??生语音波形。??简单的讲,HMM在本实验中的应用可概括为以下几方面:??(1)音子的自动切分。此项工作主要是用2.1节中介绍的第二个问题一一解??码问题来实现
【参考文献】:
期刊论文
[1]关于咸阳市方言语音的内部分化等问题[J]. 孙立新. 咸阳师范学院学报. 2018(01)
[2]一种改进的基于Viterbi的语音切分算法[J]. 李欢欢,王金明,尹海明,徐志军,孔磊,张开礼. 通信技术. 2015(09)
[3]基于前向-后向HMM的连续语音识别系统的研究[J]. 于晓明,柏松. 计算机工程与设计. 2009(18)
[4]基于MBIC的决策树聚类算法在连续语音识别中的应用[J]. 陈国平,杜利民,付跃文,王劲林. 计算机应用. 2005(12)
[5]汉语、印尼语构词词缀差异分析[J]. 颜天惠,宗世海. 暨南大学华文学院学报. 2003(03)
[6]HMM连续语音识别中Viterbi算法的优化及应用[J]. 袁俊. 电子技术. 2001(02)
[7]LSP参数的语音分析和合成研究[J]. 杨红云,向茂楠. 北京理工大学学报. 1992(01)
博士论文
[1]语音合成音库自动标注方法研究[D]. 杨辰雨.中国科学技术大学 2014
[2]统计参数语音合成中的声学模型建模方法研究[D]. 雷鸣.中国科学技术大学 2012
[3]中文TTS系统中若干关键技术研究[D]. 黄平牧.北京邮电大学 2008
[4]基于统计声学建模的语音合成技术研究[D]. 凌震华.中国科学技术大学 2008
硕士论文
[1]基于GMM-HMM的声学模型训练研究[D]. 王为凯.华南理工大学 2016
[2]统计参数语音合成中的频谱建模及生成方法研究[D]. 孙瑜声.中国科学技术大学 2015
[3]汉藏双语跨语言统计参数语音合成的研究[D]. 王海燕.西北师范大学 2015
本文编号:3256098
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3256098.html