噪声环境下的语音关键词检测
发布时间:2021-04-12 23:33
随着智能家居、智能手机和自动化设备的快速发展,基于语音技术的人机交互变得越来越流行,例如谷歌公司的Google Now,微软公司的Cortana、亚马逊公司的Alexa和苹果公司的Siri已变得十分流行。为了实现免手持的语音识别体验,语音识别系统需要持续不断地监听特定的唤醒词语来开始语音识别任务,这个过程通常被称为关键词检测(Keyword Detection,KWD)或关键词识别(Keyword Spotting,KWS)。考虑到目前很多设备计算资源受限并且大都使用电池作为能量供应,这要求关键词检测必须满足小内存占用和低能量消耗的要求。在现实世界的环境中,噪声干扰不可避免,噪声鲁棒性对于关键词识别任务而言至关重要。为了提高关键词检测系统的鲁棒性,通用的方法是在系统前端增加一个语音增强模型。本文为提高关键词检测模型的鲁棒性做了三个方面的尝试。首先,本文将预训练的语音增强模型和关键词检测模型连接起来形成一个更复杂的系统。整个模型使用联合训练的方法,因此关键词检测系统包含的语言学信息可以通过反向传播的方法传递给增强模型。第二,本文提出了一种新的卷积循环神经网络,这种网络结构需要参数量和计算...
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
关键词检测系统框架图
首先对音频信号进行数模转换,之后对音频信号进行预加重、分帧、加窗处理。预加重操作的目的是提高语音中高频的部分,使得信号在低频到高频的整个频谱变得平坦。语音信号具有短时平稳性,即 10-30 ms 内可以认为语音信号的统计学性质近似不变,因而称一短段语音信号为一帧,从而语音信号被划分为多帧信号。分帧时,为了避免丢失信息,采取重叠分段的方法,一帧的时长为帧长,相邻两帧的起始位置时间差为帧移。加窗操作是指将语音信号与窗函数相乘,方便之后做傅里叶变换。本实验中,帧长为 30 ms,帧移为 10 ms,窗函数使用汉明窗。经过预处理后,对语音信号作快速傅里叶变换得到频谱,之后对频谱取模平方后可以得到信号功率谱。梅尔滤波器组用一组梅尔频率上线性分布的三角窗滤波器对功率谱进行卷积滤波,并求取对数。最后用离散余弦变换算法对上一步结果进行计算,去除各维信号的相关性,即可得到梅尔倒谱特征。为了进一步提高系统的识别性能,会对 MFCC 特征参数计算一阶差分参数(Delta)和二阶差分参数(Delta-Delta)。最终可得 13 维 MFCC 特征及其一阶二阶差分,加上对数能量特征,共 40 维特征。在本研究中,关键词检测系统的特征是 40 维的 MFCC 特征。
图 2.3 卷积神经网络Figure 2.3 Convolutional neural network一个简单的 CNN 结构如图 2.3 所示,图中展示了一层卷积层和一层池化层。网络的输入信号为t*f的特征向量,其中t代表时间维度,f代表频率维度。卷积核大小为m*(rm<=t, r<=f)。s 代表时间轴的长度,v 代表频率轴的长度。经过卷积后得到 n 个特征映射,对这些特征映射进行降采样,池化窗大小为 p*q。根据不同的任务判断是否需要池化,在本文的关键词检测模型中没有进行池化操作。基于卷积神经网络的声学模型,最后一层为 softmax 层,其输出的每一个结点对应一个关键词标签或者非关键词的标签,输出值为某关键词或非关键词(未知词)的后验概率估计值。在我们的关键词检测系统中,CNN 的输出层有 12 个结点对应 12 种标签,分别对应 10种关键词、“非关键词”以及静音。原始的后验概率估计值带有噪声,因而需要对后验概率估计进行平滑,之后计算一个平滑窗内的平滑置信度,比较这 12 种标签经过平滑处理的置信度打分,最大置信度分数对应的标签就是系统预测的关键词或“非关键词”。
本文编号:3134179
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
关键词检测系统框架图
首先对音频信号进行数模转换,之后对音频信号进行预加重、分帧、加窗处理。预加重操作的目的是提高语音中高频的部分,使得信号在低频到高频的整个频谱变得平坦。语音信号具有短时平稳性,即 10-30 ms 内可以认为语音信号的统计学性质近似不变,因而称一短段语音信号为一帧,从而语音信号被划分为多帧信号。分帧时,为了避免丢失信息,采取重叠分段的方法,一帧的时长为帧长,相邻两帧的起始位置时间差为帧移。加窗操作是指将语音信号与窗函数相乘,方便之后做傅里叶变换。本实验中,帧长为 30 ms,帧移为 10 ms,窗函数使用汉明窗。经过预处理后,对语音信号作快速傅里叶变换得到频谱,之后对频谱取模平方后可以得到信号功率谱。梅尔滤波器组用一组梅尔频率上线性分布的三角窗滤波器对功率谱进行卷积滤波,并求取对数。最后用离散余弦变换算法对上一步结果进行计算,去除各维信号的相关性,即可得到梅尔倒谱特征。为了进一步提高系统的识别性能,会对 MFCC 特征参数计算一阶差分参数(Delta)和二阶差分参数(Delta-Delta)。最终可得 13 维 MFCC 特征及其一阶二阶差分,加上对数能量特征,共 40 维特征。在本研究中,关键词检测系统的特征是 40 维的 MFCC 特征。
图 2.3 卷积神经网络Figure 2.3 Convolutional neural network一个简单的 CNN 结构如图 2.3 所示,图中展示了一层卷积层和一层池化层。网络的输入信号为t*f的特征向量,其中t代表时间维度,f代表频率维度。卷积核大小为m*(rm<=t, r<=f)。s 代表时间轴的长度,v 代表频率轴的长度。经过卷积后得到 n 个特征映射,对这些特征映射进行降采样,池化窗大小为 p*q。根据不同的任务判断是否需要池化,在本文的关键词检测模型中没有进行池化操作。基于卷积神经网络的声学模型,最后一层为 softmax 层,其输出的每一个结点对应一个关键词标签或者非关键词的标签,输出值为某关键词或非关键词(未知词)的后验概率估计值。在我们的关键词检测系统中,CNN 的输出层有 12 个结点对应 12 种标签,分别对应 10种关键词、“非关键词”以及静音。原始的后验概率估计值带有噪声,因而需要对后验概率估计进行平滑,之后计算一个平滑窗内的平滑置信度,比较这 12 种标签经过平滑处理的置信度打分,最大置信度分数对应的标签就是系统预测的关键词或“非关键词”。
本文编号:3134179
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3134179.html