一种基于特征融合的耳语音向正常音的转换方法

发布时间：2021-10-22 20:05

　　使用耳语音的频谱包络来预估正常音的基频特征,这类算法在对正常音基频预测的准确性上存在一定不足,在合成语音自然度方面存在着明显欠缺,有时会出现音调失常等问题。本文提出一种声学特征融合的方法,通过双向长短期记忆（Bi-long short-term memory,BLSTM）深度网络来逐帧预测正常音基频。首先,使用STRAIGHT模型和相关代码,分别对耳语音和正常音语料进行预处理,提取耳语音的梅尔倒谱系数（Mel-scale frequency cepstral coefficient,MFCC）、韵律及谱包络特征,正常音的基频与谱包络特征。然后使用BLSTM深度网络,分别建立耳语音和正常音谱包络特征之间映射关系,以及耳语音MFCC、韵律及谱包络特征对正常音基频F0的映射关系。最后根据耳语音的MFCC、韵律及谱包络特征获得对应的正常音基频和谱包络,使用STRAIGHT模型合成正常音。实验结果表明,相较于仅使用谱包络估计基频,采用此种方法引入语音韵律和MFCC的融合特征是对基频特征的良好补充,解决了音调失常的现象,转换后的语音在韵律上更加接近正常发音。

【文章来源】：南京航空航天大学学报. 2020,52(05)北大核心CSCD

【文章页数】：6 页

【部分图文】：

Bi?RNN结构图

一种基于特征融合的耳语音向正常音的转换方法

LSTM记忆块

过程图,参数,过程,滤波器

MFCC参数提取过程

【参考文献】：
期刊论文
[1]采用低维特征映射的耳语音向正常音转换[J]. 周健,窦云峰,刘荣敏,王华彬,陶亮.  声学学报. 2018(05)
[2]采用STRAIGHT模型和深度信念网络的语音转换方法[J]. 王民,苏利博,王稚慧,要趁红.  计算机工程与科学. 2016(09)
[3]基于韵律特征参数的情感语音合成算法研究[J]. 何凌,黄华,刘肖珩.  计算机工程与设计. 2013(07)
[4]耳语音声调特征的研究[J]. 沙丹青,栗学丽,徐柏龄.  电声技术. 2003(11)

硕士论文
[1]语音可懂度客观评价策略的研究[D]. 彭晓腾.内蒙古大学 2016
[2]语音信号韵律特征提取及其应用研究[D]. 刘翠.五邑大学 2014

本文编号：3451766

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3451766.html

上一篇：自适应MED降噪和EMD分解在注塑机轴承故障诊断中的应用
下一篇：异分辨率激光复合成像超分辨三维重构算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|