基于深度学习的音频事件识别研究
发布时间:2021-07-24 12:03
音频事件识别作为音频研究领域的基础核心任务,是目前热门的音频研究方向如声音场景分析、音频事件检测、音频自动标注等任务的关键部分。对于音频事件识别系统的构建,有一些本质的难点需要解决,即音频分布的随机性和音频事件本身的多样性。研究的理论目标为分析这些根本问题,试图提出一些解决问题的思路,研究的实践目标则是提出适合于音频事件识别这个任务的独特的系统结构。本论文通过综合前人的广泛研究成果,以及机器学习、深度学习、语音识别、人耳感知等领域的知识,从音频的本质出发,提出了分层的属性理论算法框架,并主要从两方面着手研究。1.研究了基于卷积神经网络的音频事件识别对卷积神经网络的研究,主要目的是解决音频事件的多样性和随机性,参考国内外对音频网络设计的普适与类别依赖思想,本文对输入和网络两个模块都进行了详细的探讨,并得出了一些对更深入研究有指导意义的结论:输入方面,尝试了CQT谱、原始音频,设计了Mel谱、激励源和声道谱等,通过实验论证得出最佳输入Mel声谱;网络方面,重点对音频的视野进行了研究,主要从卷积视野、网络深度视野着手;之后优化网络结构,考虑了分层信息网络、残差网络、LSTM网络的的引入等,最...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
图2-1音频识别算法框架??
;在网络方面,由于CNN网络具有频移不变性,能够有效的减轻由声源境之间的差异引起的频谱偏移,另一方面其强大的特征提取能力能够解决分布随机性的问题,因此重点尝试适配适用于音频识别的CNN网络。??.2?CNN最佳输入研究??3.1小节表明本章的网络主要基于CNN,本节主要探讨CNN前的各种可能性。??.2.1?原始首频??音频事件识别的最原始输入是一条一条的音频流,但是在正式输入到深之前,还需要进行输入的变换,以期望能够让网络从变换后的输入里更好学习到分类信息。??国内外的研究也时常使用未经加工的原始音频数据实验,本课题作为对,也探讨了原始音频作为输入的情况,例如,典型的枪声的原始输入波形所示:??
??声谱图的提取如下图3-1所示。声谱图是声谱特征的可视化,是一种随时间??而变化的频谱图,其提取的基本流程为对音频文件进行信号变化,进行短时傅里??叶变换之后,将其按照灰度和颜色映射关系,即可绘制成声谱图:??音频一_^分帧加窗?^傅里叶变換?I?L〇Q_度值??数据?预处理?STFT?|?L〇9EJ5A????\?)?\?y?V,?,?J??_—??r?'?、??声谱图??灰度与颜色映射?????J?V???)??图3-2声谱图的生成流程??本文选用具体的几种类别的声谱图进行分析,分别选用了婴儿哭泣声、狗叫??-上:AA*??尸等:??cir^??—ac**?*?...、??、■麟、?-?'?^?^??(a)婴儿哭泣声?(b)女性尖叫声??f?I?i?i?>?^?*?i?;?:?^???;?:?;?I??鱗!5'.-.??:?fe??■??(c)脚步声?(d)典型枪声??图3-3四种典型的声谱图??声谱横轴为时间,纵轴为频率。图中的横纹对应短时谱的凸点,即共振峰;??竖纹的单条为基音,条纹的起点相当于激励源脉冲的起点,条纹之间的距离代表??基音周期
【参考文献】:
期刊论文
[1]基于MFCC和短时能量混合的异常声音识别算法[J]. 吕霄云,王宏霞. 计算机应用. 2010(03)
硕士论文
[1]场景依赖的关键音频事件检测[D]. 齐晓旭.北京邮电大学 2013
本文编号:3300616
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
图2-1音频识别算法框架??
;在网络方面,由于CNN网络具有频移不变性,能够有效的减轻由声源境之间的差异引起的频谱偏移,另一方面其强大的特征提取能力能够解决分布随机性的问题,因此重点尝试适配适用于音频识别的CNN网络。??.2?CNN最佳输入研究??3.1小节表明本章的网络主要基于CNN,本节主要探讨CNN前的各种可能性。??.2.1?原始首频??音频事件识别的最原始输入是一条一条的音频流,但是在正式输入到深之前,还需要进行输入的变换,以期望能够让网络从变换后的输入里更好学习到分类信息。??国内外的研究也时常使用未经加工的原始音频数据实验,本课题作为对,也探讨了原始音频作为输入的情况,例如,典型的枪声的原始输入波形所示:??
??声谱图的提取如下图3-1所示。声谱图是声谱特征的可视化,是一种随时间??而变化的频谱图,其提取的基本流程为对音频文件进行信号变化,进行短时傅里??叶变换之后,将其按照灰度和颜色映射关系,即可绘制成声谱图:??音频一_^分帧加窗?^傅里叶变換?I?L〇Q_度值??数据?预处理?STFT?|?L〇9EJ5A????\?)?\?y?V,?,?J??_—??r?'?、??声谱图??灰度与颜色映射?????J?V???)??图3-2声谱图的生成流程??本文选用具体的几种类别的声谱图进行分析,分别选用了婴儿哭泣声、狗叫??-上:AA*??尸等:??cir^??—ac**?*?...、??、■麟、?-?'?^?^??(a)婴儿哭泣声?(b)女性尖叫声??f?I?i?i?>?^?*?i?;?:?^???;?:?;?I??鱗!5'.-.??:?fe??■??(c)脚步声?(d)典型枪声??图3-3四种典型的声谱图??声谱横轴为时间,纵轴为频率。图中的横纹对应短时谱的凸点,即共振峰;??竖纹的单条为基音,条纹的起点相当于激励源脉冲的起点,条纹之间的距离代表??基音周期
【参考文献】:
期刊论文
[1]基于MFCC和短时能量混合的异常声音识别算法[J]. 吕霄云,王宏霞. 计算机应用. 2010(03)
硕士论文
[1]场景依赖的关键音频事件检测[D]. 齐晓旭.北京邮电大学 2013
本文编号:3300616
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3300616.html