当前位置:主页 > 科技论文 > 信息工程论文 >

结合深度卷积循环网络和时频注意力机制的单通道语音增强算法

发布时间:2021-03-03 09:04
  语音增强的目的是从带有噪声的语音中分离出纯净语音,实现语音的质量和可懂度的提高。近年来,采用有监督学习的深度神经网络已经成为了语音增强的主流方法。卷积循环网络是一种新型的神经网络结构,包含编码层、中间层、解码层三个主要模块,其已经在语音增强任务中取得了较好的效果。时频注意力机制是一个由数个相连的卷积层通过跳跃连接构成的简单网络模块,在训练过程中可以计算语音幅度谱特征图的非邻域相关性,从而更加有利于网络关注到语音的谐波特性。本文将时频注意力机制引入卷积循环网络的编码层和解码层中,实验结果表明,在不同信噪比条件下,该方法相比基线卷积循环网络能够进一步提高语音质量和可懂度,且增强后的语音信号可以保留更多的语谱谐波信息,实现更低程度的语音失真。 

【文章来源】:信号处理. 2020,36(06)北大核心

【文章页数】:8 页

【部分图文】:

结合深度卷积循环网络和时频注意力机制的单通道语音增强算法


卷积循环网络模型流程图

流程图,注意力,时频,特征图


So=Satten?S′ (3)各层输入的张量维度如图所示,C表示特征图的通道数,可以通过卷积层卷积核的数量进行调整;T表示输入语谱特征图的帧数,即时间维;F则表示输入语谱特征的频点数,即频率维。

卷积,注意力,网络流,时频


图3为结合时频注意力机制的卷积神经网络的主要结构流程图,可以划分为四部分。其中①,③表示加载在CRNN前后的时频注意力模块,其结构和2.2节所述保持一致,并添加了二维卷积层以进行数据预处理和后处理,并通过补零(same-padding)操作使得特征图在通过卷积层前后维度保持一致。②表示2.1节所述卷积循环网络模块,图中对编码层和解码层做了一定的简化。主要网络模块的输入、输出维度和超参数设置如表1所示。表1 网络特征维度及参数设置Tab.1 Feature size and parameter settings 网络层 输入维度 输出维度 超参数 Conv2d T×161 1×T×161 k=5×5,s=(1,1),c=1 T-F_Attention_In 1×T×161 1×T×161 1×1conv:k=1×1, s=1, c=4; conv1d: k=5, c=1 CRNN编码层 1×T×161 256×T×4 k:=2×5, s=(1, 2), c=16, 32, 64, 128, 256 维度重整(Reshape) 256×T×4 T×1024 — LSTM T×1024 T×1024 1024 维度重整(Reshape) T×1024 256×T×4 — CRNN解码层 512×T×4 1×T×161 k=2×5, s=(1, 2), c=128, 64, 32, 16, 1 T-F_Attention_Out 1×T×161 1×T×161 1×1conv: k=1×1, s=1, c=2; conv1d: k=5, c=1 Conv2d 1×T×161 T×161 k=1×1, s=(1, 1), c=1

【参考文献】:
期刊论文
[1]基于深度神经网络的单通道语音增强方法回顾[J]. 鲍长春,项扬.  信号处理. 2019(12)



本文编号:3061002

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3061002.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6258a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com