基于深度学习的单通道语音增强研究

发布时间：2021-08-26 16:08

　　语音增强技术的目的是对带噪语音中的噪声部分进行抑制,同时尽量保留纯净语音部分。近几年,语音增强开始作为监督性学习问题来解决,模型直接从训练数据中学习到语音和噪声的区别。特别是最近基于深度学习的语音增强算法,表现出了可观的性能。本文在监督性语音增强的框架下,从两个方面展开了研究:（1）基于胶囊网络的语音增强:深度神经网络（DNN）在语音增强任务上取得了很好的性能,但是对噪声的泛化性依然存在问题。为了提高模型的泛化性能,我们提出使用胶囊网络进行语音增强。胶囊网络最开始在图像处理领域提出,表现出了对输入的仿射变换具有鲁棒性,并且胶囊网络擅长识别重叠物体。我们认为带噪语音就是语音和噪声的重叠,因此胶囊网络也适合处理语音增强问题。实验表明,基于胶囊网络的方法表现出比DNN更好的对噪声的泛化性能。（2）基于时序卷积循环神经网络的语音增强:大多数基于深度学习的语音增强方法,都是在时频域上进行。由于目标的相位很难使用模型进行直接估计,因此一般只估计频谱的幅值,而保留混合语音的相位,这会降低语音增强系统的性能。在本文的工作中,我们提出使用时序卷积循环神经网络（TCRN）进行语音增强,直接将带噪语音波形映...

【文章来源】：内蒙古大学内蒙古自治区 211工程院校

【文章页数】：55 页

【学位级别】：硕士

【部分图文】：

基于深度学习的单通道语音增强研究

加窗示意图

结构框图,语音增强,结构框图,语音

内蒙古大学硕士学位论文9第三章深度学习框架下的语音增强概述现实环境中带噪语音()生成的过程可以形式化描述为：()=()+()(3.1)其中()代表纯净语音，()代表环境噪声，不考虑混响的情况下，可以认为噪声和语音通过加性叠加生成了带噪语音。语音增强的目的就是在已知()的情况下，求解()。由于实际环境中的语音和噪声的统计特性有所区别，所以这个问题仍然是可解的。使用深度学习解决语音增强问题，就是从数据中直接学习语音和噪声的区别，从而得到纯净语音。将语音增强放在深度学习的框架来解决，可以分为训练和测试两个阶段[11]。在训练阶段，通过使用监督性学习算法对大量训练数据进行挖掘和学习，模型就会获得去除语音中噪声的能力。在测试阶段，将带噪语音输入训练好的增强模型，就可以得到降噪后的语音。图3.1给出了整体的结构框图。图3.1基于深度学习的语音增强系统的结构框图Figure3.1Ablockdiagramofthedeeplearningbasedspeechenhancementsystem3.1训练数据生成深度学习的模型需要在大量的数据上进行迭代[12]，训练需要的数据包括两部分：输入数据和输出目标。在语音增强中，输入数据是带噪语音，输出目标是纯净语音特征或者各种时频掩蔽。无论是哪种输出目标，需要准确的纯净语音数据进行一系列变换得到。对于实录的

基于深度学习的单通道语音增强研究

理想二值掩蔽Figure3.2Idealbinarymask,IBM

本文编号：3364548

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/xixikjs/3364548.html

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|