基于深度学习与强化学习的声学家庭行为识别
发布时间:2022-01-16 07:12
家庭环境的行为识别是智能家居领域的重要研究方向,也是智能辅助及安全监控服务的核心与关键。声学传感器能够采集到丰富的特征,易于部署且价格低廉。基于声学传感器的家庭行为识别的应用场景更加贴近实际生活。由于家庭环境的声学行为数据集的样本数较少,且各类别间样本严重不平衡,导致现有的基于声学传感器的行为识别模型的效果不佳。本文研究的重点和方向是结合深度学习与强化学习,解决家庭环境的声学数据的样本量不足且分类不平衡问题,并进一步提升家庭环境声学行为识别的效果。本文的主要工作如下:(1)除了在原始音频上做数据增强方法外,提出了3种基于频谱图的数据增强方法,解决了家庭环境的声学数据存在样本不足的问题,提升模型的鲁棒性。此外,使用谐波与冲击拆解算法过滤频谱图中的噪声,并利用GLU(Gated Linear Unit)进一步抑制噪声,提升模型性能。(2)提出了一种基于深度学习的家庭声学行为识别网络。提高结合CNN与RNN,同时对频域特征以及时序相关特征进行提取,并通过在CNN网络中引入SE Net及DenseNet,加强了对CNN不同层特征的利用,提高对频率特征的提取。此外,引入时间分布全连接层以及基于E...
【文章来源】:上海师范大学上海市
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
Mel带通滤波器组
第2章相关技术介绍上海师范大学硕士学位论文8所得的结果便允许我们使用倒谱平均减法,其为一种对信道的归一化技术。最终,可以采用对数变换后的滤波器组能量进行离散余弦转换,因为滤波器组均为相互重叠,之间的能量亦是彼此相互关联的;而离散余弦转换可以去除能量的相关性。离散余弦变换系数越高,表示滤波器能量组的能量转换速度越快,而此类变换会导致音频识别模型性能的降低,因此通常会丢弃较高的部分,来提升模型的性能。MFCC操作的简化步骤如下:将获取的音频信号剪裁为一个个较短的郑逐帧计算其功率谱。使用一组Mel滤波器,将其作用至功率谱上,并对每一滤波器中得到的能量进行求和操作。对每一滤波器获得的能量采取对数变换。对上述这组对数变换后的滤波器组进行离散余弦转换操作。保留离散余弦转换的部分参数,而丢弃其余参数。通常情况下,基于Mel标度的带通滤波器组的图形化展示如图2-1所示:图2-1Mel带通滤波器组除MFCC特征外,频谱图也是较为常用的声学特征。频谱图也被称为频谱瀑布或声纹,为音频信号在频域上的图形化表示,其随着水平坐标轴(例如时间)或其他刻度上的变换进行转换。频谱图可用于基于音频信号的识别任务,因此其也被广泛地应用于音频处理、语音处理、声呐系统及雷达系统等领域的研发中。频谱图的常见表示方式为:以时间为横轴,以频率为纵轴,使用图中的点的颜色来代表某一时间点上该频率的振动幅度。如图2-2所示。图2-2常见的频谱图的表示形式
上海师范大学硕士学位论文第2章相关技术介绍11型以及二者的结合体。生成式的深度学习模型是根据数据集来求联合概率(,),接着根据先验概率()以及()的组合,求得条件概率(|)作为最终的预测模型,一个经典的例子是受限制玻尔兹曼机的RBM[38]。判别式模型则是根据数据集固有特征,直接对概率分布(|)进行求解,例如卷积神经网络[39]。第三类的结合体模型顾名思义,就是前面两个结构的联合应用。图2-3神经元结构2.3.1基本神经元结构深度学习[40]网络的基础单位是神经元,神经元的具体结构如图2-5所示。图中,包括多个神经元输入,=0,1,…,以及根据其计算的输出值y,其中0=1对应于偏置值。神经元通过权值以及偏置值的结合,确定了中间状态的值,则输出可以被表示成:()=(∑=0)公式(2-3)以上公式中,为连接层的权值,当其为正时,表示其所对应的神经元正处于激发态,相反地,其为负值时,则表示其所对应的神经元正处于抑制态。式中,n表示输入特征的个数,为神经元所对应的输出,为计算所发生的时间,f(.)为激活函数,通常也被称输出转换函数,用来为模型增加非线性特征。常见的激活函数有如下几种:(1)Sigmoid函数,如图2-6第1行第1列所示,Sigmoid函数可以通过下式来表示:()=11+,0<()<1公式(2-4)(2)Tanh函数,如图2-6的第2行第1列所示,Tanh函数是对Sigmoid函数的一种优化变体。(3)ReLU函数,如第3行第1列所示,其公式为:
【参考文献】:
期刊论文
[1]基于卷积神经网络的翻录语音检测算法[J]. 李璨,王让定,严迪群. 计算机应用. 2018(01)
[2]基于语音频谱融合特征的手机来源识别[J]. 裴安山,王让定,严迪群. 计算机应用. 2018(03)
[3]受限波尔兹曼机[J]. 张春霞,姬楠楠,王冠伟. 工程数学学报. 2015(02)
本文编号:3592184
【文章来源】:上海师范大学上海市
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
Mel带通滤波器组
第2章相关技术介绍上海师范大学硕士学位论文8所得的结果便允许我们使用倒谱平均减法,其为一种对信道的归一化技术。最终,可以采用对数变换后的滤波器组能量进行离散余弦转换,因为滤波器组均为相互重叠,之间的能量亦是彼此相互关联的;而离散余弦转换可以去除能量的相关性。离散余弦变换系数越高,表示滤波器能量组的能量转换速度越快,而此类变换会导致音频识别模型性能的降低,因此通常会丢弃较高的部分,来提升模型的性能。MFCC操作的简化步骤如下:将获取的音频信号剪裁为一个个较短的郑逐帧计算其功率谱。使用一组Mel滤波器,将其作用至功率谱上,并对每一滤波器中得到的能量进行求和操作。对每一滤波器获得的能量采取对数变换。对上述这组对数变换后的滤波器组进行离散余弦转换操作。保留离散余弦转换的部分参数,而丢弃其余参数。通常情况下,基于Mel标度的带通滤波器组的图形化展示如图2-1所示:图2-1Mel带通滤波器组除MFCC特征外,频谱图也是较为常用的声学特征。频谱图也被称为频谱瀑布或声纹,为音频信号在频域上的图形化表示,其随着水平坐标轴(例如时间)或其他刻度上的变换进行转换。频谱图可用于基于音频信号的识别任务,因此其也被广泛地应用于音频处理、语音处理、声呐系统及雷达系统等领域的研发中。频谱图的常见表示方式为:以时间为横轴,以频率为纵轴,使用图中的点的颜色来代表某一时间点上该频率的振动幅度。如图2-2所示。图2-2常见的频谱图的表示形式
上海师范大学硕士学位论文第2章相关技术介绍11型以及二者的结合体。生成式的深度学习模型是根据数据集来求联合概率(,),接着根据先验概率()以及()的组合,求得条件概率(|)作为最终的预测模型,一个经典的例子是受限制玻尔兹曼机的RBM[38]。判别式模型则是根据数据集固有特征,直接对概率分布(|)进行求解,例如卷积神经网络[39]。第三类的结合体模型顾名思义,就是前面两个结构的联合应用。图2-3神经元结构2.3.1基本神经元结构深度学习[40]网络的基础单位是神经元,神经元的具体结构如图2-5所示。图中,包括多个神经元输入,=0,1,…,以及根据其计算的输出值y,其中0=1对应于偏置值。神经元通过权值以及偏置值的结合,确定了中间状态的值,则输出可以被表示成:()=(∑=0)公式(2-3)以上公式中,为连接层的权值,当其为正时,表示其所对应的神经元正处于激发态,相反地,其为负值时,则表示其所对应的神经元正处于抑制态。式中,n表示输入特征的个数,为神经元所对应的输出,为计算所发生的时间,f(.)为激活函数,通常也被称输出转换函数,用来为模型增加非线性特征。常见的激活函数有如下几种:(1)Sigmoid函数,如图2-6第1行第1列所示,Sigmoid函数可以通过下式来表示:()=11+,0<()<1公式(2-4)(2)Tanh函数,如图2-6的第2行第1列所示,Tanh函数是对Sigmoid函数的一种优化变体。(3)ReLU函数,如第3行第1列所示,其公式为:
【参考文献】:
期刊论文
[1]基于卷积神经网络的翻录语音检测算法[J]. 李璨,王让定,严迪群. 计算机应用. 2018(01)
[2]基于语音频谱融合特征的手机来源识别[J]. 裴安山,王让定,严迪群. 计算机应用. 2018(03)
[3]受限波尔兹曼机[J]. 张春霞,姬楠楠,王冠伟. 工程数学学报. 2015(02)
本文编号:3592184
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3592184.html