噪声鲁棒性的语音转换算法

发布时间：2020-04-08 06:16

【摘要】：语音转换是语音信号处理领域的一个重要分支,具体说来,语音转换即是保持语音中的语义不变,仅改变说话人的个性信息,使之听起来像特定说话人的声音。语音转换的研究包含语音信号处理的各个方面,如特征提取,特征对齐,语音合成等,对于语音转换的研究也有利于促进其它领域的发展,对人类了解语音信号的本质具有非常重要的作用,同时语音转换的研究也有很多的实际应用场景,如保密通信,定制个性化声音等。在语音转换迈向实际应用中,噪声对于语音转换的干扰是非常严重的,本文针对含噪语音难以实现有效的语音转换,在非负矩阵分解算法的基础上,提出联合字典优化的噪声鲁棒性语音转换算法(BE-NMF),使得含噪语音与联合字典匹配,从而实现语音转换与语音去噪相结合,实现噪声环境下的语音转换;同时结合后向剔除算法对联合字典中无效原子的剔除作用,横向减小联合字典的大小,在保持转换性能基本不变的情况下提高转换效率。在多信噪比和多种噪声的条件下的对比实验表明,本文BE-NMF算法相较于传统NMF算法和经过谱减消噪预处理的NMF算法具有更高的转换效果,同时后向剔除算法也在一定程度上提升了转换的效率。针对单帧特征转换所引起的转换语音的不连续性问题,在BE-NMF算法基础上引入上下文信息,通过多帧构造一帧形成超帧的方式解决,随之通过Mel滤波的方式纵向降低超帧维数,降低计算复杂度;结合语音信号的特点,将语音信号通过谐波冲激分解算法分解为谐波部分和冲激部分,并对两部分信号分而治之,对含有个性信息的谐波部分进行转换,对不含有个性信息的冲激部分,进行维纳滤波处理,对谐波信号部分进行补偿。实验研究表明:仅对谐波信号部分进行转换,能够提高转换的客观评价质量,冲激信号部分的补偿作用对语音的主观听觉质量有明显的提升作用;另外上下文信息的引入,也在一定程度上提升了转换质量,通过Mel滤波处理的方式虽然同帧数情况下转换质量有所降低,但是其转换速度在帧数为9时提升个5倍左右,因此可以牺牲一定的转换效果提升转换速度,这对于实际应用具有非常可观的作用。
【图文】：

系统原理图,语音转换,声学特征,个性信息

数逡逑图１－１语音转换系统原理图示逡逑如上图１－１所示，一个完整的语音转换系统包括提取说话人的个性信息的声学特征，建逡逑立两话者间声学特征的映射规则，以及将转换后的语音特征合成语音信号三个部分。要完成逡逑一个说话人的语音转换，一般分为两个阶段：训练阶段和转换阶段，其中训练阶段包括特征逡逑提取、特征对齐、特征映射，目的是训练出特征映射函数；转换阶段使用训练得到的映射函逡逑数，进行特征映射，最后利用映射特征合成出接近目标说话人的语音。逡逑１．２语音转换的意义和应用逡逑语音转换作为语音信号处理领域的一个新兴分支，研究语音转换有着重要的理论价值和逡逑应用前景。语音转换技术涉及了多个语音信号处理领域，如语音信号频谱分析和特征表示，逡逑语音信号的分析与合成，，以及数理统计模型的建立与估计等。通过对语音转换的研究，可以逡逑进一步加强对语音相关参数的研究

声带,发音器官,人体,声门

第２章语音转换系统概述逡逑介绍语音转换系统所涉及的相关技术的基本原理，包括语音信号的数学模型、转理、适用于语音转换系统的语音特征参数、常用语音转换的方法四个方面的知识。逡逑信号的数学模型逡逑的语音是由人体器官在大脑控制下作生理运动产生的［３２］。人体发音器官包括肺、包括声带）、咽、鼻和口。这些气管共同形成一条形状复杂的通道。喉的部分称为门到嘴唇的呼气通道叫做声道，声道的形状主要有嘴唇、鄂和舌头的位置决定，的不断改变，而发出不同的语音［３３］。肺的主要生理功能是使血液和空气之间进行这是人体的呼吸功能，它的另外一个重要功能是将压缩空气供给发音器官，人在气由肺部经气管进入喉部，有经过声带进入声道，最后由嘴辐射出声波，形成语
【学位授予单位】：杭州电子科技大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TN912.3

【参考文献】