融合声纹信息的能量谱图在鸟类识别中的研究
发布时间:2023-04-05 10:21
常用的梅尔倒谱系数结合高斯混合模型(MFCC+GMM)方法的鸟鸣声识别技术难适应噪声环境,模型难以收敛,且计算复杂度高。该文提出一种融合声纹信息的能量谱图的鸟类识别方法 (VPS-BR),该方法利用鸟类鸣声在能量谱图上所表现的多维差异性,定量识别鸣声声纹特征。通过对分贝能量进行颜色映射得到能量谱图,提取其视觉特征所表达的声学特征,分析归纳得到鸟类特有鸣声模式。在特征提取步骤中,选用识别速度快的局部二值模式、识别鲁棒性高的方向梯度直方图两个参数表征鸟鸣声谱图的边缘声纹;在识别步骤中,用局部二值模式和方向梯度直方图两种特征分别与支持向量机、K最近邻和随机森林3种分类器算法进行两两组合构建识别模型测试。对15种原始带噪鸟类鸣声数据集进行交叉验证,VPS-BR模型的平均识别率比MFCC+GMM组合模型高出11.3%,方向梯度直方图特征与K最近邻分类器的组合模型识别率达90.5%,表现出较好的抗噪性能和识别性能。最后针对样本数据集缺乏问题,使用生成对抗网络进行图像增强,进一步将识别率提升1.48%。
【文章页数】:11 页
【文章目录】:
0 引言
1 基本原理与模型
1.1 识别原理
1.2 MBCS-LBP特征提取
1.3 HOG特征提取
2 实验结果分析与讨论
2.1 样本选取
2.2 特征分析
2.3 识别率与识别时间
3 生成式对抗网络进行数据增强
3.1 图谱数据生成
3.2 实验验证
4 结论
本文编号:3783241
【文章页数】:11 页
【文章目录】:
0 引言
1 基本原理与模型
1.1 识别原理
1.2 MBCS-LBP特征提取
1.3 HOG特征提取
2 实验结果分析与讨论
2.1 样本选取
2.2 特征分析
2.3 识别率与识别时间
3 生成式对抗网络进行数据增强
3.1 图谱数据生成
3.2 实验验证
4 结论
本文编号:3783241
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3783241.html