在线更新噪声基矩阵的非负矩阵分解语音增强方法
发布时间:2021-04-17 20:59
基于非负矩阵分解(Nonnegative matrix factorization, NMF)的语音增强算法需要和背景噪声类型匹配的噪声基矩阵(Basis matrix),而在实际中,这是很难被保证的。本文提出了一种基于噪声基矩阵在线更新的非负矩阵分解语音增强方法,该方法首先利用一个无语音帧判决模块识别出带噪语音的无语音区域,然后利用一个固定长度的滑动窗口(Sliding window)来包含若干帧最近过去的带噪语音的无语音帧,并用这些无语音帧的幅度谱在线更新噪声基矩阵,最后利用更新得到的噪声基矩阵和预先训练的语音基矩阵实现语音增强。该方法能够在线更新出匹配的噪声基矩阵,有效地解决了噪声基矩阵不匹配的问题。实验证明,本文所提的方法在线学习到的噪声基矩阵在大多数条件下比匹配训练集下训练得到的噪声基矩阵的性能还要优越。
【文章来源】:信号处理. 2020,36(06)北大核心CSCD
【文章页数】:8 页
【部分图文】:
干净语音波形和语音存在概率(SPP)估计
图3给出了带噪语音和各种方法的增强语音的语谱图比较示例,所展示的语谱图是在白噪声5 dB的条件下得到的。从图3中可以看到,Ref.A虽然大幅度地抑制了背景噪声,但是其增强的语音的低频部分仍然存在部分噪声,而且该方法衰减了许多弱语音成分,造成了语音的谐波结构的破坏和高频信息的丢失。相比之下,Ref.B对语音的频谱谐波结构破坏不多,而且其增强语音的部分高频信息也没有丢失,但是其对背景噪声的抑制却不如Ref.A,这可以从图3(b)和图3(c)中的椭圆形以及矩形标记中看到。而从图3(d)中可以看到,相比Ref.A和Ref.B,所提方法不仅能够大幅度地抑制背景噪声,包括在低频残留的噪声,而且其增强语音的频谱结构更加清晰,高频信息丢失较少,频谱比较完整,这就导致了语音质量和可懂度的大幅度提升,也导致了更加舒适的听觉体验。本实验联合使用分段信噪比提升(Segment signal-to-noise ratio improvement, SSNRI)[20]、语音感知质量(Perceptual evaluation of speech quality, PESQ)[21]以及扩展的短时客观可懂度(Extended short-time objective intelligibility, ESTOI)[22]对各种算法的性能进行评估,结果为200段语音的平均值。
本文编号:3144132
【文章来源】:信号处理. 2020,36(06)北大核心CSCD
【文章页数】:8 页
【部分图文】:
干净语音波形和语音存在概率(SPP)估计
图3给出了带噪语音和各种方法的增强语音的语谱图比较示例,所展示的语谱图是在白噪声5 dB的条件下得到的。从图3中可以看到,Ref.A虽然大幅度地抑制了背景噪声,但是其增强的语音的低频部分仍然存在部分噪声,而且该方法衰减了许多弱语音成分,造成了语音的谐波结构的破坏和高频信息的丢失。相比之下,Ref.B对语音的频谱谐波结构破坏不多,而且其增强语音的部分高频信息也没有丢失,但是其对背景噪声的抑制却不如Ref.A,这可以从图3(b)和图3(c)中的椭圆形以及矩形标记中看到。而从图3(d)中可以看到,相比Ref.A和Ref.B,所提方法不仅能够大幅度地抑制背景噪声,包括在低频残留的噪声,而且其增强语音的频谱结构更加清晰,高频信息丢失较少,频谱比较完整,这就导致了语音质量和可懂度的大幅度提升,也导致了更加舒适的听觉体验。本实验联合使用分段信噪比提升(Segment signal-to-noise ratio improvement, SSNRI)[20]、语音感知质量(Perceptual evaluation of speech quality, PESQ)[21]以及扩展的短时客观可懂度(Extended short-time objective intelligibility, ESTOI)[22]对各种算法的性能进行评估,结果为200段语音的平均值。
本文编号:3144132
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3144132.html