当前位置:主页 > 科技论文 > 自动化论文 >

基于卷积神经网络的声音分类方法研究

发布时间:2022-01-05 12:11
  声音分类是多媒体信息处理中的基础性研究工作,是声音数据结构化的核心技术,在信号处理、语音识别等领域都有着重要的研究意义,众多领域对于高性能的声音分类系统有着迫切的需求。近年来,随着深度学习技术的发展,深度神经网络与音频数据处理分析的结合成为了新的研究热点,尤其是具有代表性的卷积神经网络在声音分类任务上取得了显著成效。本文基于卷积神经网络模型对声音分类方法进行研究。首先,本文针对现有方法难以从音频数据中提取强区分度特征的问题,提出了一种带特征融合机制的多尺度时域卷积网络模型(WaveMsNet)。我们分析了卷积神经网络在波形信号提取中存在的两难问题,即无法使卷积核分布在全频带上的同时提高特征频率分别率,在这种问题下,我们通过网络提取的特征总是不能很好的表达音频信息,为此我们提出一种多尺度时域卷积操作用于增加特征的区分度。同时我们还提出了一种特征融合方法,将网络提取的波形特征和二维时频特征在同一个网络中进行有效融合。在声音分类公开数据集ESC-10和ESC-50上,多尺度时域卷积操作可以使分类准确度平均提升1.95%和2.82%,在加入特征融合方法以后我们取得了比之前工作更高的分类性能。其... 

【文章来源】:国防科技大学湖南省 211工程院校 985工程院校

【文章页数】:73 页

【学位级别】:硕士

【部分图文】:

基于卷积神经网络的声音分类方法研究


图2.4?LSTM和GRU网络结构??

模型图,双随机过程,隐马尔科夫模型,分类器


国防科技太学研究生院硕士学位论文??练模型,即如何更新模型参数。问题(1)可以由前向算法或者后向算法解决,问??题(2)是典型的状态空间搜索问题,经典的算法有Viterbi、A*和Beam?Search等??算法,他们都利用了动态规划的思想;问题(3)是统计学习过程,经典算法包括??Baum-Welch、梯度算法等。??

特征图,卷积,二维,特征图


)??convolutionaL?Layer??i—I ̄1 ̄t—l ̄L-4—J—?80?filters?(1x3)??、、'?\?\?*??no?dropout?...?max-pooling??(1x3,?stride?1x3)??_〇u_?-—???????fs〇rLsd??dropout?50%?-?,?CD???fully?connected??(5000?ReLUs)??C^)?output?layer??l'r?(#?of?classes)??图2.6用于声會分类的二维卷积神经网络示例??值得注意的是,在上面的方法中虽然使用了二维特征图作为特征,但是和??RGB图像是有E别的,时频特征一般是单通道的,无需考虑色彩、明晴等因素。??Shahiri等人[44]将生成的频谱图完全当做图像来处理,文中完全采用计算机视觉中??对待图片的方式来使用AlexNet、VGG等网络结构对音频进行分类,还对比了使??用不同颜色(Color?Map)的频谱图对于分类性能的影响。??2.4.2膨胀卷积模型??y(i,?...?1〇)?'?i?i?i?I?i?I?i?i?1?y{i.…,1〇)?'?i?i?i?????t??口?□口???;■?————??:corv3,1?afe?b?■■?j?conv3,1-D2?r-^-|?—j^i??.?:'nn…n.?:'[=zr.?va:?D'?"'?卜?i?r?i?i?i.?..i?丨■?i?i?i?i?t?i??CNN?pool^Z?K?l\?!?CNN!?pool2,1?KN\??丨二-广丁上―广「-丢i.?■?i

【参考文献】:
期刊论文
[1]基于高斯混合模型的自然环境声音的识别[J]. 余清清,李应,李勇.  计算机工程与应用. 2011(25)
[2]基于隐马尔可夫模型的音频自动分类[J]. 卢坚,陈毅松,孙正兴,张福炎.  软件学报. 2002(08)



本文编号:3570326

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3570326.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c025e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com