基于可分离卷积与LSTM的语音情感识别研究
发布时间:2021-02-11 08:22
语音情感识别是人机交互领域的一个研究热点。针对普通卷积神经网络参数量过大和不能较好地处理时序信息的问题,文中给出将可分离卷积与LSTM应用于语音情感识别的方法,在RAVDESS情感语料库上进行了验证,利用MFCC特征训练的1D Sep-CNN-LSTM模型获得了90.77%的识别准确率,模型压缩了约40%。利用语谱图特征训练的2D Sep-CNN-LSTM模型获得了82.21%的识别准确率,模型压缩了约75%。实验表明,该方法相较其他模型在语音情感识别应用上有一定的优越性,适合于实时下位机的应用。
【文章来源】:信息技术. 2020,44(10)
【文章页数】:6 页
【部分图文】:
可分离卷积
本文的语音情感识别流程如图7所示。首先对原始语音进行端点检测修剪语音和滤波去噪后,分别提取了MFCC和语谱图特征,然后再输入到搭建好的模型中用以训练得到结果。4.1 硬件配置
1D Sep-CNN-LSTM训练过程准确率曲线如图8所示,模型训练在迭代了300次后基本趋于平稳,最后模型在测试集上获得了90.77%的识别率。其在测试集上的混淆矩阵如图9所示,该模型对各个表情识别率都较高,其中识别准确率最高的情感是calm,达到了95%,最低的是happy,为88%。图9 1D Sep-CNN-LSTM的混淆矩阵
【参考文献】:
期刊论文
[1]基于变分模态分解的语音情感识别方法[J]. 王玮蔚,张秀再. 应用声学. 2019(02)
[2]基于DBN的多模态音乐情感分类研究[J]. 赵勇飞,王宇,周义凯,袁燕. 信息技术. 2019(02)
本文编号:3028815
【文章来源】:信息技术. 2020,44(10)
【文章页数】:6 页
【部分图文】:
可分离卷积
本文的语音情感识别流程如图7所示。首先对原始语音进行端点检测修剪语音和滤波去噪后,分别提取了MFCC和语谱图特征,然后再输入到搭建好的模型中用以训练得到结果。4.1 硬件配置
1D Sep-CNN-LSTM训练过程准确率曲线如图8所示,模型训练在迭代了300次后基本趋于平稳,最后模型在测试集上获得了90.77%的识别率。其在测试集上的混淆矩阵如图9所示,该模型对各个表情识别率都较高,其中识别准确率最高的情感是calm,达到了95%,最低的是happy,为88%。图9 1D Sep-CNN-LSTM的混淆矩阵
【参考文献】:
期刊论文
[1]基于变分模态分解的语音情感识别方法[J]. 王玮蔚,张秀再. 应用声学. 2019(02)
[2]基于DBN的多模态音乐情感分类研究[J]. 赵勇飞,王宇,周义凯,袁燕. 信息技术. 2019(02)
本文编号:3028815
本文链接:https://www.wllwen.com/kejilunwen/wltx/3028815.html