基于深度学习的单通道语音增强研究
发布时间:2021-08-26 16:08
语音增强技术的目的是对带噪语音中的噪声部分进行抑制,同时尽量保留纯净语音部分。近几年,语音增强开始作为监督性学习问题来解决,模型直接从训练数据中学习到语音和噪声的区别。特别是最近基于深度学习的语音增强算法,表现出了可观的性能。本文在监督性语音增强的框架下,从两个方面展开了研究:(1)基于胶囊网络的语音增强:深度神经网络(DNN)在语音增强任务上取得了很好的性能,但是对噪声的泛化性依然存在问题。为了提高模型的泛化性能,我们提出使用胶囊网络进行语音增强。胶囊网络最开始在图像处理领域提出,表现出了对输入的仿射变换具有鲁棒性,并且胶囊网络擅长识别重叠物体。我们认为带噪语音就是语音和噪声的重叠,因此胶囊网络也适合处理语音增强问题。实验表明,基于胶囊网络的方法表现出比DNN更好的对噪声的泛化性能。(2)基于时序卷积循环神经网络的语音增强:大多数基于深度学习的语音增强方法,都是在时频域上进行。由于目标的相位很难使用模型进行直接估计,因此一般只估计频谱的幅值,而保留混合语音的相位,这会降低语音增强系统的性能。在本文的工作中,我们提出使用时序卷积循环神经网络(TCRN)进行语音增强,直接将带噪语音波形映...
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
加窗示意图
内蒙古大学硕士学位论文9第三章深度学习框架下的语音增强概述现实环境中带噪语音()生成的过程可以形式化描述为:()=()+()(3.1)其中()代表纯净语音,()代表环境噪声,不考虑混响的情况下,可以认为噪声和语音通过加性叠加生成了带噪语音。语音增强的目的就是在已知()的情况下,求解()。由于实际环境中的语音和噪声的统计特性有所区别,所以这个问题仍然是可解的。使用深度学习解决语音增强问题,就是从数据中直接学习语音和噪声的区别,从而得到纯净语音。将语音增强放在深度学习的框架来解决,可以分为训练和测试两个阶段[11]。在训练阶段,通过使用监督性学习算法对大量训练数据进行挖掘和学习,模型就会获得去除语音中噪声的能力。在测试阶段,将带噪语音输入训练好的增强模型,就可以得到降噪后的语音。图3.1给出了整体的结构框图。图3.1基于深度学习的语音增强系统的结构框图Figure3.1Ablockdiagramofthedeeplearningbasedspeechenhancementsystem3.1训练数据生成深度学习的模型需要在大量的数据上进行迭代[12],训练需要的数据包括两部分:输入数据和输出目标。在语音增强中,输入数据是带噪语音,输出目标是纯净语音特征或者各种时频掩蔽。无论是哪种输出目标,需要准确的纯净语音数据进行一系列变换得到。对于实录的
理想二值掩蔽Figure3.2Idealbinarymask,IBM
本文编号:3364548
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
加窗示意图
内蒙古大学硕士学位论文9第三章深度学习框架下的语音增强概述现实环境中带噪语音()生成的过程可以形式化描述为:()=()+()(3.1)其中()代表纯净语音,()代表环境噪声,不考虑混响的情况下,可以认为噪声和语音通过加性叠加生成了带噪语音。语音增强的目的就是在已知()的情况下,求解()。由于实际环境中的语音和噪声的统计特性有所区别,所以这个问题仍然是可解的。使用深度学习解决语音增强问题,就是从数据中直接学习语音和噪声的区别,从而得到纯净语音。将语音增强放在深度学习的框架来解决,可以分为训练和测试两个阶段[11]。在训练阶段,通过使用监督性学习算法对大量训练数据进行挖掘和学习,模型就会获得去除语音中噪声的能力。在测试阶段,将带噪语音输入训练好的增强模型,就可以得到降噪后的语音。图3.1给出了整体的结构框图。图3.1基于深度学习的语音增强系统的结构框图Figure3.1Ablockdiagramofthedeeplearningbasedspeechenhancementsystem3.1训练数据生成深度学习的模型需要在大量的数据上进行迭代[12],训练需要的数据包括两部分:输入数据和输出目标。在语音增强中,输入数据是带噪语音,输出目标是纯净语音特征或者各种时频掩蔽。无论是哪种输出目标,需要准确的纯净语音数据进行一系列变换得到。对于实录的
理想二值掩蔽Figure3.2Idealbinarymask,IBM
本文编号:3364548
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3364548.html
最近更新
教材专著