基于神经网络的声音事件检测技术研究
发布时间:2020-12-24 09:42
机器听觉,是指机器利用声音传感器采集音频数据,并对其进行分析从而判断声音的来源、变化等过程的技术,声音事件检测(Sound Event Detection,SED)是其重要内容之一。声音事件检测就是将采集到的声音进行分类,并判断当前发生的事件或所处的场景,在智能家居、安防监控、无人驾驶等领域有着广阔的应用前景。随着深度学习技术的不断发展,利用神经网络技术进行声音事件检测已经成为了越来越多研究者的选择。目前,该领域的研究主要存在两方面的难点,其一是缺少带有声音事件起、止时间的强标记数据情况下,如何利用弱标记、甚至是无标记数据进行学习;第二是对于更符合实际生活场景的多声音事件检测系统,如何强化声音事件的特征,提高识别的准确率。围绕上述两个问题,本文开展了以下研究:首先,优化了使用弱标签数据学习的神经网络架构,在充分利用循环神经网络(RNN)提取上下文信息基础上,使用残差网络(ResNet)替代卷积神经网络(CNN),加深网络深度,充分利用弱标记数据,同时使用通道注意力机制,强化特征提取,改善识别效果;其次,构建半监督学习框架Mean-Teacher模型,利用强标记数据、弱标记数据与无标记数...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
多声音事件检测任务
电子科技大学硕士学位论文8果与标签向量之间的损失函数,通过最小化损失函数、防止过拟合等,得到最终的模型参数;在测试阶段,则仅输入声音样本,通过判断系统给出的判决结果与已知的该样本标签进行比对,从而获得系统的准确率等性能评价指标。显然,并不能将参与训练的声音样本用来测试样本性能,因此训练集与测试集的划分必须是互斥的。根据声音片段与标签的对应关系,可分为强标签数据和弱标签数据。对于强标签数据,标签可以对应到声音事件的起止时刻,假设给出的数据集包含N条声音样本,他们分别属于L个声音事件,对每一个样本按照50ms/症50%帧重叠进行分帧操作,则第i帧数据的起始时间为(i-1)*50ms,结束时间为i*50ms,每帧的时间长度为50ms,若该帧的持续时间包含在事件的时间范围内,则其标签向量L(i)=1,否则L(i)=0;对于弱标签数据,其标签并不包含各类事件的具体起始时间,因此各帧的标签数据均设置为统一的值,即若该条声音样本被标记为事件,则各帧的标签向量L(i)=1,否则各帧的L(i)=0。图2-1多声音事件检测系统框架图对于单声音事件检测来说,任何一段声音样本,标签向量中只能有一个位置对应为1,其余均对应为0;而对于本文探讨的多声音事件检测而言,标签向量并不是互斥的,即可能出现同一条声音样本或同一帧数据,可能出现标签向量中两个甚至多个位置的值为1。2.1.2评价指标单声音事件检测本质上仍然是一个分类系统,其性能评价指标也与其他的分类系统相似。但是,随着多声音事件检测与弱标签的声音事件检测任务的出现与快速发展,单纯的准确率指标并不能很好地反映系统性能。目前,较为公认的评价指标是由A.Mesaros,及T.Heittola,andT.Virtanen在文献[31]中提出的F-Score及ER
电子科技大学硕士学位论文10的输出矩阵,只有当输出矩阵中事件的起、止时间与标签矩阵中一致时(一般误差200ms以内即可认为是一致),才可视为判断正确,即在响应的时间范围内标注TP,否则在该时间范围内标注为FN或FP。因此,基于事件的计算方式,其输出矩阵与标记矩阵按照事件数对应,不按照帧数对应,其得到的各中间值也是与整个时间范围内的事件数相关的。图2-2基于事件的中间量计算方式而基于片段的计算方式,如图2-3所示,则是将声音样本按照某个固定时间长度分帧后,为每一帧打上标签,根据每一帧的输出结果构造输出矩阵。这时,输出矩阵与标记矩阵是一个大小固定的尺寸,即纵向由声音事件种类数决定,横向代表所有郑将每一帧对应的输出矩阵和标签矩阵进行对比并,得出每一帧相应的TP、FP、FN值,再将各帧的情况汇总,得到整个时间范围内的中间量的值。图2-3基于片段的中间量计算方式
【参考文献】:
期刊论文
[1]基于多尺度特征融合的小尺度行人检测[J]. 罗强,盖佳航,郑宏宇. 软件. 2019(12)
博士论文
[1]复杂音频的事件检测与分类中的关键问题研究[D]. 冷严.北京邮电大学 2012
硕士论文
[1]基于深度特征的说话人辨认技术研究[D]. 顾婷.南京邮电大学 2019
[2]基于深度学习的声学场景分类与声音事件检测[D]. 李先苦.华南理工大学 2019
[3]基于神经网络的声纹识别研究[D]. 邱子璇.电子科技大学 2019
[4]基于深度学习的声音事件识别研究[D]. 王诗佳.东南大学 2018
[5]基于注意力机制的声音场景深度分类模型研究[D]. 夏子琪.浙江大学 2018
[6]基于多通道的分层特征提取的图像识别[D]. 祝璞.中国科学技术大学 2016
本文编号:2935429
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
多声音事件检测任务
电子科技大学硕士学位论文8果与标签向量之间的损失函数,通过最小化损失函数、防止过拟合等,得到最终的模型参数;在测试阶段,则仅输入声音样本,通过判断系统给出的判决结果与已知的该样本标签进行比对,从而获得系统的准确率等性能评价指标。显然,并不能将参与训练的声音样本用来测试样本性能,因此训练集与测试集的划分必须是互斥的。根据声音片段与标签的对应关系,可分为强标签数据和弱标签数据。对于强标签数据,标签可以对应到声音事件的起止时刻,假设给出的数据集包含N条声音样本,他们分别属于L个声音事件,对每一个样本按照50ms/症50%帧重叠进行分帧操作,则第i帧数据的起始时间为(i-1)*50ms,结束时间为i*50ms,每帧的时间长度为50ms,若该帧的持续时间包含在事件的时间范围内,则其标签向量L(i)=1,否则L(i)=0;对于弱标签数据,其标签并不包含各类事件的具体起始时间,因此各帧的标签数据均设置为统一的值,即若该条声音样本被标记为事件,则各帧的标签向量L(i)=1,否则各帧的L(i)=0。图2-1多声音事件检测系统框架图对于单声音事件检测来说,任何一段声音样本,标签向量中只能有一个位置对应为1,其余均对应为0;而对于本文探讨的多声音事件检测而言,标签向量并不是互斥的,即可能出现同一条声音样本或同一帧数据,可能出现标签向量中两个甚至多个位置的值为1。2.1.2评价指标单声音事件检测本质上仍然是一个分类系统,其性能评价指标也与其他的分类系统相似。但是,随着多声音事件检测与弱标签的声音事件检测任务的出现与快速发展,单纯的准确率指标并不能很好地反映系统性能。目前,较为公认的评价指标是由A.Mesaros,及T.Heittola,andT.Virtanen在文献[31]中提出的F-Score及ER
电子科技大学硕士学位论文10的输出矩阵,只有当输出矩阵中事件的起、止时间与标签矩阵中一致时(一般误差200ms以内即可认为是一致),才可视为判断正确,即在响应的时间范围内标注TP,否则在该时间范围内标注为FN或FP。因此,基于事件的计算方式,其输出矩阵与标记矩阵按照事件数对应,不按照帧数对应,其得到的各中间值也是与整个时间范围内的事件数相关的。图2-2基于事件的中间量计算方式而基于片段的计算方式,如图2-3所示,则是将声音样本按照某个固定时间长度分帧后,为每一帧打上标签,根据每一帧的输出结果构造输出矩阵。这时,输出矩阵与标记矩阵是一个大小固定的尺寸,即纵向由声音事件种类数决定,横向代表所有郑将每一帧对应的输出矩阵和标签矩阵进行对比并,得出每一帧相应的TP、FP、FN值,再将各帧的情况汇总,得到整个时间范围内的中间量的值。图2-3基于片段的中间量计算方式
【参考文献】:
期刊论文
[1]基于多尺度特征融合的小尺度行人检测[J]. 罗强,盖佳航,郑宏宇. 软件. 2019(12)
博士论文
[1]复杂音频的事件检测与分类中的关键问题研究[D]. 冷严.北京邮电大学 2012
硕士论文
[1]基于深度特征的说话人辨认技术研究[D]. 顾婷.南京邮电大学 2019
[2]基于深度学习的声学场景分类与声音事件检测[D]. 李先苦.华南理工大学 2019
[3]基于神经网络的声纹识别研究[D]. 邱子璇.电子科技大学 2019
[4]基于深度学习的声音事件识别研究[D]. 王诗佳.东南大学 2018
[5]基于注意力机制的声音场景深度分类模型研究[D]. 夏子琪.浙江大学 2018
[6]基于多通道的分层特征提取的图像识别[D]. 祝璞.中国科学技术大学 2016
本文编号:2935429
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2935429.html