基于循环神经网络与子带谱熵法的助听器语音增强
发布时间:2021-07-28 17:01
在日常生活中常见的非平稳噪声环境下,现有助听器语音增强算法的降噪性能有所不足。对此,本文提出了一种结合子带谱熵法与双尺度循环神经网络的助听器语音增强算法。该算法将音频划分为16个子频段,各频段的对数功率谱被用作循环神经网络的输入特征,对应的频段增益作为输出特征,并使用子带谱熵法对增益进行修正。实验结果表明,相较于传统语音增强算法,在三类不同的噪声环境中,本文提出算法的平均信噪比分别提高了4.215 dB、0.906 dB、11.010 dB。在FPGA上对该算法进行测试,输出与计算机模拟输出的信噪比差值为0.117 dB,互相关系数为0.999 4。并且当时钟频率设置为10 MHz时,算法的延时约为2 ms,可以满足助听器的使用需求。
【文章来源】:传感技术学报. 2020,33(08)北大核心CSCD
【文章页数】:7 页
【部分图文】:
图1 分通道滤波器组的各通道幅度-频率响应曲线图
本文通过将全连接层、GRU层等结构进行组合,设计了一种用于语音增强的双尺度RNN。该网络在本研究最初设计的单尺度网络(图2(a))的基础上改进而成,其输入特征除原本16个频段的LPS外,还将相邻的每4个频段合并,从而把16个频段转化为了4个粗分频段。在计算这些粗分频段的LPS后,一并作为网络的输入特征。这些数据并没有直接与原本的LPS并列使用,而是构建了一个对称的子网络结构,称作粗分析区,并与细分析区、谱处理区组成了如图2(b)所示的双尺度语音增强网络。图中每一个矩形表示网络的一层,并列出了该层的结构、激活函数与节点数,箭头则表示数据的传输方向。与常见的各层依次连接的网络结构相比,该网络将输入数据直接连接到了部分隐含层,使得谱处理区能够同时获得原始特征与谱分析区处理后的特征,并由此计算每个频段的增益。1.3 训练数据
将每次迭代的验证集损失函数值绘制了如图3所示的变化曲线。可以看出随着迭代次数的增加,损失值在不断减少并趋于平缓,因此认为该语音增强网络的训练能够收敛。1.4 子带谱熵法
【参考文献】:
期刊论文
[1]WHO全球防聋计划和我国的响应与作用[J]. 卜行宽. 山东大学耳鼻喉眼学报. 2019(03)
[2]一种基于自适应谱熵的端点检测改进方法[J]. 王琳,李成荣. 计算机仿真. 2010(12)
[3]一种设计频率特性有间断滤波器的新方法[J]. 黄翔东,王兆华. 天津大学学报. 2006(05)
本文编号:3308290
【文章来源】:传感技术学报. 2020,33(08)北大核心CSCD
【文章页数】:7 页
【部分图文】:
图1 分通道滤波器组的各通道幅度-频率响应曲线图
本文通过将全连接层、GRU层等结构进行组合,设计了一种用于语音增强的双尺度RNN。该网络在本研究最初设计的单尺度网络(图2(a))的基础上改进而成,其输入特征除原本16个频段的LPS外,还将相邻的每4个频段合并,从而把16个频段转化为了4个粗分频段。在计算这些粗分频段的LPS后,一并作为网络的输入特征。这些数据并没有直接与原本的LPS并列使用,而是构建了一个对称的子网络结构,称作粗分析区,并与细分析区、谱处理区组成了如图2(b)所示的双尺度语音增强网络。图中每一个矩形表示网络的一层,并列出了该层的结构、激活函数与节点数,箭头则表示数据的传输方向。与常见的各层依次连接的网络结构相比,该网络将输入数据直接连接到了部分隐含层,使得谱处理区能够同时获得原始特征与谱分析区处理后的特征,并由此计算每个频段的增益。1.3 训练数据
将每次迭代的验证集损失函数值绘制了如图3所示的变化曲线。可以看出随着迭代次数的增加,损失值在不断减少并趋于平缓,因此认为该语音增强网络的训练能够收敛。1.4 子带谱熵法
【参考文献】:
期刊论文
[1]WHO全球防聋计划和我国的响应与作用[J]. 卜行宽. 山东大学耳鼻喉眼学报. 2019(03)
[2]一种基于自适应谱熵的端点检测改进方法[J]. 王琳,李成荣. 计算机仿真. 2010(12)
[3]一种设计频率特性有间断滤波器的新方法[J]. 黄翔东,王兆华. 天津大学学报. 2006(05)
本文编号:3308290
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3308290.html