基于聚类特征联合字典的非负矩阵分解语音转换
发布时间:2020-03-28 05:55
【摘要】:语音转换即维持语义不变,对源说话人的语音进行转换,使其具有目标说话人的个性特征。语音转换涵盖信号处理、声学等学科,对语音信号转换的探索可促进如:语音编码、说话人识别等的革新。语音转换在文语合成系统、多媒体娱乐、语言翻译系统、医学领域的语音增强系统以及说话人伪装身份通信方面应用广泛。现有的绝大多数算法基于统计模型,其中高斯混合模型是主流。它们中很多需要源和目标说话人的足量平行语料,这带来了很多限制和问题。比如,训练的数据对两个说话人必须是相同的,训练的模型只能被应用到特定的一对组合,说话人的语料不充足,对齐时可能会出现的帧间错误匹配等等。本文在传统的非负矩阵分解语音转换基础上,提出一种利用聚类特征联合字典实现多对多说话人的稀疏非负矩阵分解语音转换算法。它将说话人语音的频谱特征分解成个性特征和语义相关两部分。首先利用语音分析模型自适应加权谱内插(STRAIGHT)提取语音的基频和短时谱参数,对短时谱求解其线性预测倒谱系数(LPCC)。其次,将N个说话人的适量平行语料对齐,通过高维均值聚类得到各自的字典。然后,将非负矩阵频谱参数近似为各自字典的线性组合与激励阵的乘积。转换语音频谱参数是目标语音联合字典与源语音激励阵优化后的组合。该算法可以在源和目标说话人语料不充足的情形下实现多对多的语音转换。实验结果显示,以上方法在VCC2016语料库上实验得到的转换语音的谱失真和语音质量均优于传统的非负矩阵分解。转换语音的平均谱失真度比传统算法降低了大约4.3%。
【图文】:
耳蜗在颅骨深处,尺寸很小,因此对耳蜗的分析处理是一项异常艰难而繁逡逑杂的工程。目前工程上用的较多的是1982年由美国Fairchild人工智能研究室Lyon逡逑提出的计算模型,其原理框图如下图2.2所示。第一项为基底膜的振动模型,由各逡逑种二阶网络组成的滤波器构成,将输入信号在频域分解。第二项为毛细胞模型,采取逡逑半波整流和低通滤波近似单个细胞的检测性能。第三项是神经纤维模型,默认其是非逡逑8逡逑
逦邋低通逡逑翻逦I发放I滤“器逡逑图2.2语音信号听觉模型原理框图逡逑2.邋1.3语音信号模型逡逑为了更好地对语音信号分析和研究,需要借助数学公式,对其进行建模。该数学逡逑模型由三个模块构成.?激励系统、声道系统和辐射系统。激励系统为声源产生激励,逡逑声道系统对激励进行调制,辐射系统将声音辐射出去。逡逑如图2.3所示为语音信号产生的数学模型,以下将对其三部分详细阐述。逡逑Av逦I逦I逡逑基音周期逦■逦?逡逑;声道参数;逡逑I逦n逦I逡逑.邋%煎五邋五五澹义县芷诼龀邋迳怕龀迥X危诲义希Х⑸麇澹扌停纾ǎ╁危″危危″义希殄危哄五危殄危五危澹惧五澹五五义螻B、丨声道模型丨辐射模型语音信号逡逑逦邋「V(z)邋丁邋R(Z)逦^逡逑随机噪声发丨逦:逡逑生器逦々一丨\逦;逡逑1逦1逦:逦I浊音/清音开关邋.逡逑?逦?逡逑I逦I逡逑激励系统逦AU邋|声道系统|逦辐射系统逡逑图2.3语音信号产生的数学模型逡逑a.激励系统逡逑激励系统由浊音激励和清音激励组成。当发声者声带连续开合时,能够形成间歇逡逑9逡逑
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.3
本文编号:2604023
【图文】:
耳蜗在颅骨深处,尺寸很小,因此对耳蜗的分析处理是一项异常艰难而繁逡逑杂的工程。目前工程上用的较多的是1982年由美国Fairchild人工智能研究室Lyon逡逑提出的计算模型,其原理框图如下图2.2所示。第一项为基底膜的振动模型,由各逡逑种二阶网络组成的滤波器构成,将输入信号在频域分解。第二项为毛细胞模型,采取逡逑半波整流和低通滤波近似单个细胞的检测性能。第三项是神经纤维模型,默认其是非逡逑8逡逑
逦邋低通逡逑翻逦I发放I滤“器逡逑图2.2语音信号听觉模型原理框图逡逑2.邋1.3语音信号模型逡逑为了更好地对语音信号分析和研究,需要借助数学公式,对其进行建模。该数学逡逑模型由三个模块构成.?激励系统、声道系统和辐射系统。激励系统为声源产生激励,逡逑声道系统对激励进行调制,辐射系统将声音辐射出去。逡逑如图2.3所示为语音信号产生的数学模型,以下将对其三部分详细阐述。逡逑Av逦I逦I逡逑基音周期逦■逦?逡逑;声道参数;逡逑I逦n逦I逡逑.邋%煎五邋五五澹义县芷诼龀邋迳怕龀迥X危诲义希Х⑸麇澹扌停纾ǎ╁危″危危″义希殄危哄五危殄危五危澹惧五澹五五义螻B、丨声道模型丨辐射模型语音信号逡逑逦邋「V(z)邋丁邋R(Z)逦^逡逑随机噪声发丨逦:逡逑生器逦々一丨\逦;逡逑1逦1逦:逦I浊音/清音开关邋.逡逑?逦?逡逑I逦I逡逑激励系统逦AU邋|声道系统|逦辐射系统逡逑图2.3语音信号产生的数学模型逡逑a.激励系统逡逑激励系统由浊音激励和清音激励组成。当发声者声带连续开合时,能够形成间歇逡逑9逡逑
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.3
【参考文献】
相关期刊论文 前6条
1 余先川;任雅丽;;非负矩阵分解及在地学中的应用[J];地质学刊;2014年02期
2 温建科;;基于Cool Edit Pro软件的数字音频处理技术[J];实验科学与技术;2013年06期
3 张炳;俞一彪;;基于改进GMM和韵律联合短时谱的说话人转换[J];信号处理;2009年04期
4 刘华平;李昕;徐柏龄;姜宁;;语音信号端点检测方法综述及展望[J];计算机应用研究;2008年08期
5 左国玉,刘文举,阮晓钢;声音转换技术的研究与进展[J];电子学报;2004年07期
6 黄钢石,张亚非,陆建江,徐宝文;一种受限非负矩阵分解方法[J];东南大学学报(自然科学版);2004年02期
相关硕士学位论文 前4条
1 车滢霞;约束条件下的结构化统计声学模型及非平行语料语音转换[D];苏州大学;2015年
2 赵莽;语音个性特征识别及转化系统研究[D];南京大学;2014年
3 杨阳;汉语语音转换系统的研究[D];北京交通大学;2008年
4 蒋冀翔;基于非负矩阵分解的信息获取方法研究[D];东南大学;2006年
,本文编号:2604023
本文链接:https://www.wllwen.com/kejilunwen/wltx/2604023.html