当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的语音情感识别算法研究

发布时间:2020-08-07 14:28
【摘要】:语音情感识别(Speech Emotion Recognition,SER)是近年来人工智能领域的研究热点,在情感机器人、在线教育、客服中心、辅助驾驶、刑事侦查等方面具有广阔的应用前景。目前,语音情感识别的研究已取得诸多进展,但建立合理高效的语音情感识别网络模型仍是目前所面临的主要问题之一。因此,本文在分析目前主流的卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)识别模型的基础上,从不等长样本、类别不平衡样本以及情感信息帧间不平衡样本的处理三方面进行研究改进以提高模型的识别性能。主要研究工作如下:(1)对于不等长样本,采用一种变长输入策略,解决了定长输入模型中长时样本分割造成的情感类型混淆、时序信息不连续的问题,有效提高了模型的识别性能。在IEMOCAP语料库的(中性、高兴、悲伤、生气)四类情感识别实验上,取得了66.59%UAR(Unweighted Average Recall)和69.33%WAR(Weighted Average Recall)的识别性能,与定长输入模型相比,分别提升了8.61%和5.86%。(2)对于类别不平衡样本,采用焦点损失函数代替交叉熵反比权重法进行模型训练,提高了模型对于困难样本的挖掘能力,有效增强了模型对类别不平衡样本的学习能力。实验取得了68.66%UAR和69.67%WAR的识别性能,与“baseline”模型相比,分别提升了2.06%和0.34%。(3)对于情感信息帧间分布不平衡样本,在“baseline”模型中引入联结主义时间分类(Connectionist Temporal Classification,CTC)方法,利用CTC方法将情感标签对齐到情感帧,使模型仅关注学习情感帧,有效提高了模型识别性能。实验取得了69.75%UAR和70.42%WAR的识别性能,与“baseline”模型相比,分别提升了1.09%和0.75%。考虑到CTC方法对情感帧进行同等程度学习的局限性,在“baseline”模型中引入注意力机制(Attention Mechanism,AM),依据情感信息含量的不同给语音帧分配不同的注意力权重,对语音帧进行不同程度的学习。实验取得了71.77%的UAR和71.60%的WAR的识别性能,优于上述CTC模型。
【学位授予单位】:长春理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN912.34;TP18
【图文】:

流程图,情感,语音,分帧


语音数据库、语音情感特征提取以及语音情感识别算法等相关内容[2,3,32]。如图2.1所示,一个语音情感识别的主流系统框架通常包含训练阶段和预测阶段两个阶段。其中,训练阶段先要对音频样本进行相应的分帧加窗等预处理操作,然后进行特征提取得到特征向量,输入到分类器进行迭代训练得到最优模型参数。预测阶段则利用训练得到模型参数进行预测分类。情感语音数据库训练样本测试样本特征提取识别网络(预测)分帧加窗识别结果特征提取识别网络(训练)模型参数分帧加窗迭代分帧加窗采样量化图 2.1 语音情感识别主流系统框架2.1 语音信号的预处理在进行语音信号特征提取以及情感识别之前通常需要进行语音预处理工作,以便获得高质量、稳定的语音信号。经过预处理后,语音信号具有统一的数据格式,数据的质量更高,减少了特征分析提取的复杂度,为后继的情感识别打下良好的基础。如图2.2所示,语音信号的预处理流程包含有预滤波、采样量化、预加重、分帧加窗以及端点检测等处理工作[32]。预加重分帧加窗端点检测采样量化预滤波模拟语音信号输入语音样本图 2.2 语音信号预处理流程图2.1.1 采样量化语音信号是典型的模拟信号

流程图,语音信号,采样量化


便获得高质量、稳定的语音信号。经过预处理后,语音信号具有统一的数据格式,数据的质量更高,减少了特征分析提取的复杂度,为后继的情感识别打下良好的基础。如图2.2所示,语音信号的预处理流程包含有预滤波、采样量化、预加重、分帧加窗以及端点检测等处理工作[32]。预加重分帧加窗端点检测采样量化预滤波模拟语音信号输入语音样本图 2.2 语音信号预处理流程图2.1.1 采样量化语音信号是典型的模拟信号,计算机并不能直接处理,需要经过采样量化转换

语谱图,样本,时长,占比


的先决条件。但在实践过程中,发现大多数情感语料库或多或少都存在不尽人意的地方,普遍存在样本时长不一致和样本类别不平衡的问题。IEMOCAP情感语料库中生气、快乐、中性和悲伤四种情绪的样本时长分布和样本占比情况,如图3.1所示。从图中可以看出,语音时长范围为0~30秒,时长跨度比较大,同时高兴情感样本占比小,中性情感样本占比大。这对语音情感识别的研究造成了一定的不便,因为在机器学习或者深度学习中往往要求训练样本各类别是同等数量的即各类样本数目是均衡的,并且一般要求输入样本大小固定。为此,本章以目前比较流行的基于语谱图的CRNN情感识别模型[60,61]作为“baseline”模型,从变长语音处理以及样本不平衡处理两个方面分别对语音情感识别进行研究。a)b)图 3.1 四种情绪的样本时长分布和样本占比情况a) 样本时长分布 b) 样本占比情况句数目语

【参考文献】

相关期刊论文 前6条

1 赵力;黄程韦;;实用语音情感识别中的若干关键技术[J];数据采集与处理;2014年02期

2 韩文静;李海峰;阮华斌;马琳;;语音情感识别研究进展综述[J];软件学报;2014年01期

3 王峻;白延强;秦海波;冯晶;吴斌;;空间站任务航天员心理问题及心理支持[J];载人航天;2012年02期

4 路青起;白燕燕;;基于双门限两级判决的语音端点检测方法[J];电子科技;2012年01期

5 黄永明;章国宝;董飞;达飞鹏;;基于两种GMM-UBM多维概率输出的SVM语音情感识别[J];计算机应用研究;2011年01期

6 王治平,赵力,邹采荣;利用模糊熵进行参数有效性分析的语音情感识别[J];电路与系统学报;2003年03期

相关会议论文 前1条

1 王明;刘好新;张歆奕;;一种基于时频方差和的语音端点检测方法研究[A];教育部中南地区高等学校电子电气基础课教学研究会第二十届学术年会会议论文集(下册)[C];2010年



本文编号:2784121

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2784121.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户20186***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com