少量语料的语音转换算法
发布时间:2020-04-10 06:03
【摘要】:语音信号包含了多种信息,例如说话人身份信息、情感状态和语义内容等。而语音转换就是用目标说话人的身份信息来替换源说话人的身份信息,但是保持语义内容不变的一种语音处理技术。语音转换技术在伪装/反伪装、人工智能语音发声、恢复受损语音、语音趣味互动等多方面都有着广阔的应用前景。然而转换前需要大量源和目标说话人语料以及转换后的语音质量等问题制约了语音转换的应用。针对目标说话人可能存在语料不足的情况,本文提出了一种应用统一张量字典的少量训练语料情况下的语音转换算法。从语料库中随机选取N个说话人作为语音张量字典的基础说话人,通过多序列动态时间规整算法使这N个说话人的平行语音段对齐,从而建立由N个二维基础字典构成的张量字典。在语音转换阶段,源、目标说话人语音都可以通过张量字典中各基础字典的线性组合,构造出各自的语音字典,实现了语音转换。实验结果表明,当基础说话人个数达到14时,只需要极少的目标说话人语料,便可获得与传统的基于非负矩阵分解转换算法相当的转换效果,这极大地方便了语音转换系统的应用。针对稀疏表示类算法存在的“细节丢失”问题造成的语音质量不佳的问题,本文提出了一种基于谐波冲激分离的语音转换算法。该算法是在统一张量字典的语音转换算法基础之上的改进,在统一张量字典的语音转换算法基础上增加了一个谐波冲激分离的预处理过程,将谐波信号和冲激信号分别经过各自的转换系统进行转换,并在转换之后相加得到最终的转换语音。针对预处理的分离技术,该算法在训练阶段分别训练出谐波字典和冲激字典。由于转换系统采用的特征参数是语音频谱,在此基础上论文提出了两点改进措施:频谱压缩和残差补偿。实验结果证明该算法可以有效的提高统一张量字典语音转换算法的语音质量,实现少语料情况下的高质量语音转换算法。并且本文算法的语音转换质量高于非负矩阵分解算法的语音转换语音质量。实验结果同时表明,残差补偿可以很好地改善转换系统的客观评价指标,而频谱压缩在转换性能的主观评价上改善更明显。
【图文】:
图 1.1 语音转换系统原理图示般的语音转换系统分为训练阶段和语音转换阶段。如上图 1.1 所示,,在训练阶段,和目标说话人说同样的话,将这由两个不同说话人所说的具有相同语音内容的语音练系统得到转换函数,当然图中显示训练阶段只有一句话,实际中需要大量的这样料,用于训练出转换函数。在语音转换阶段,将源说话人的语音通过训练阶段得到数就可以得到转换后的目标说话人语音,实现语音转换。音转换的意义和应用音信号处理涉及到数字信号处理,语言学,听觉,心理学等多个学科,涉及较广且复杂。近现代以来,得益于数理统计模型的快速发展,语音信号处理技术也得到了展。随着语音识别、说话人识别、语音合成等技术的飞快发展并且走向成熟,这些渐走出实验室,进入商业应用领域,并且大多取得成功。作为语音信号处理领域的,语音转换技术也得到了越来越多的关注和发展。近几年来,随着深度学习、稀疏术的流行,语音转换技术正逐渐成为当今学科研究领域的一个前沿课题。语音转换到语音特征提取、语音转换算法、寻找矩阵间映射关系、模型的建立以及参数训练
杭州电子科技大学硕士学位论文 第 2 章 语音转换系统对本文所研究的少语料下的语音转换研究课题,介绍了所涉及的相关技术音信号的数学。模型、语音转。换的基。本原理、一些语音转换的主要方法价标准四个方面的知识。号的数学模型发声过程是由多个器官共同作用的结果,由下而上包括:肺部、喉部、口如图 2.1 所示,从肺部产生的气流,流经喉部,经过声带,当声带有频会产生一个周期性的脉冲气流。其中肺部气流的大小和喉部声带振动频率高等[37]。发音器官包括口腔和鼻腔等,声音通过声门产生一个有周期的脉鼻腔等组成的声道,改变了原来的声音,为原来的声音提供一个额外的辅
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.3
【图文】:
图 1.1 语音转换系统原理图示般的语音转换系统分为训练阶段和语音转换阶段。如上图 1.1 所示,,在训练阶段,和目标说话人说同样的话,将这由两个不同说话人所说的具有相同语音内容的语音练系统得到转换函数,当然图中显示训练阶段只有一句话,实际中需要大量的这样料,用于训练出转换函数。在语音转换阶段,将源说话人的语音通过训练阶段得到数就可以得到转换后的目标说话人语音,实现语音转换。音转换的意义和应用音信号处理涉及到数字信号处理,语言学,听觉,心理学等多个学科,涉及较广且复杂。近现代以来,得益于数理统计模型的快速发展,语音信号处理技术也得到了展。随着语音识别、说话人识别、语音合成等技术的飞快发展并且走向成熟,这些渐走出实验室,进入商业应用领域,并且大多取得成功。作为语音信号处理领域的,语音转换技术也得到了越来越多的关注和发展。近几年来,随着深度学习、稀疏术的流行,语音转换技术正逐渐成为当今学科研究领域的一个前沿课题。语音转换到语音特征提取、语音转换算法、寻找矩阵间映射关系、模型的建立以及参数训练
杭州电子科技大学硕士学位论文 第 2 章 语音转换系统对本文所研究的少语料下的语音转换研究课题,介绍了所涉及的相关技术音信号的数学。模型、语音转。换的基。本原理、一些语音转换的主要方法价标准四个方面的知识。号的数学模型发声过程是由多个器官共同作用的结果,由下而上包括:肺部、喉部、口如图 2.1 所示,从肺部产生的气流,流经喉部,经过声带,当声带有频会产生一个周期性的脉冲气流。其中肺部气流的大小和喉部声带振动频率高等[37]。发音器官包括口腔和鼻腔等,声音通过声门产生一个有周期的脉鼻腔等组成的声道,改变了原来的声音,为原来的声音提供一个额外的辅
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.3
【相似文献】
相关期刊论文 前10条
1 金保华,陈建华,尚展垒;基于语音段管理的语音芯片体系结构设计[J];郑州轻工业学院学报;2003年02期
2 陈日新,孟军,李思昆;一种基于语音段管理的语音芯片体系结构设计[J];常德高等专科学校学报(自然科学版);1999年01期
3 王桂荣;金小峰;;语音段中朝蒙单元音概率分布的对比分析[J];延边大学学报(自然科学版);2018年03期
4 姚晓菊;;视障大学生英语音段感知能力探寻性研究[J];海外英语;2019年13期
5 张璐;;现代汉语语音段的教学法探索[J];中国电力教育;2011年34期
6 雷文辉;宋彦;戴礼荣;;一种基于层次化支持向量机的语种识别方法[J];小型微型计算机系统;2009年04期
7 谷东;简志华;;面向少量语料的语音转换算法[J];声学学报;2018年05期
8 李艳雄;吴永;贺前华;;基于特征均值距离的短语音段说话人聚类算法[J];电子与信息学报;2012年06期
9 张小恒;王力锐;曹W
本文编号:2621852
本文链接:https://www.wllwen.com/kejilunwen/wltx/2621852.html