当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的语音情感识别研究

发布时间:2020-04-03 11:18
【摘要】:语音情感识别是从给定语音段中自动获取情感类型的技术,随着商业和教育等领域对情感识别需求的不断增加,发展高准确率的语音情感识别系统成为了语音领域的一个热门研究方向。而基于深度学习的语音情感识别方法,特别是卷积神经网络(Convolutional Neural Network,CNN)在这一领域得到了研究者们的重视,一些初步研究取得了良好效果,表现出比较大的研究潜力。然而对于CNN语音情感识别模型仍然有几个方面需要研究和探索,首先,什么样的特征更适合于CNN语音情感识别模型。其次,如何合理地设计网络结构,使其能有效学习到情感区分性信息,最后数据不足的问题是制约语音情感识别发展的一大难题,因此如何利用更多辅助数据来提高识别准确率的方法有待于去探索。针对这这些问题,本文展开了研究和实验。为了探究特征对情感识别的影响,本文首先建立了一个端到端CNN语音情感识别系统,并且在多种特征上进行实验,发现语谱图特征对于语音情感识别有着最佳的性能。在此基础之上本文进一步对于语谱图的不同频域段进行了探索,发现低频率段对于情感识别有着重要的作用。同时本文还对不同情感类别的CNN的激活值进行了研究,以探索不同高层特征区别。这些研究有助于理解不同情感在时频区域上的分布特性。为了进一步利用CNN模型所输出的高层时频信息,产生更有效的情感区分性特征,本文使用双线性池化方法来对CNN语音情感识别模型的高层特征进行建模,它能计算情感高层特征各维度之间的相关性,产生更为丰富的情感特征表示。然而由于情感数据集规模的限制,造成双线性池化的训练较为困难,因此本文使用分解双线性池化对输出特征进行降维,明显提升了语音情感识别的准确率。基于双线性池化理论,本文又进一步提出了基于注意力机制的注意力池化语音情感识别模型,通过引入自顶向下和自底向上注意力权重图,使得各个情感类别得到更好的区分,提升了识别性能。为了利用额外信息,解决情感识别数据不足的问题,同时提高识别准确率,本文提出了利用音素信息和说话人信息的语音情感识别方法。针对音素特征,使用了具有两个分支的CNN网络来协同训练语音和音素特征。针对说话人信息,本文提出了使用残差适应模型进行说话人到情感的域适应。这一方法先通过带有说话人标签的数据集训练一个深度残差网络,再使用情感数据集训练适应模块,以此利用说话人数据集提供的辅助信息来提升情感识别性能。实验验证表明利用音素和说话人的情感识别模型均大幅超过仅利用语音特征的模型。
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN912.34;TP18

【相似文献】

相关期刊论文 前10条

1 陈婧;李海峰;马琳;陈肖;陈晓敏;;多粒度特征融合的维度语音情感识别方法[J];信号处理;2017年03期

2 李银河;李雪晖;徐楠;钟文雅;赵新仕;程晓燕;孙峰;袁键;;语音情感识别分类算法研究综述[J];南阳师范学院学报;2017年06期

3 何秉羲;;语音情感识别研究现状综述[J];办公自动化;2015年10期

4 赵力;黄程韦;;实用语音情感识别中的若干关键技术[J];数据采集与处理;2014年02期

5 张石清;李乐民;赵知劲;;人机交互中的语音情感识别研究进展[J];电路与系统学报;2013年02期

6 李杰;周萍;;语音情感识别中特征参数的研究进展[J];传感器与微系统;2012年02期

7 赵腊生;张强;魏小鹏;;语音情感识别研究进展[J];计算机应用研究;2009年02期

8 王茜;;一个语音情感识别系统的设计与实现[J];大众科技;2006年08期

9 陈建厦,李翠华;语音情感识别的研究进展[J];计算机工程;2005年13期

10 宋鹏;郑文明;赵力;;基于特征迁移学习方法的跨库语音情感识别[J];清华大学学报(自然科学版);2016年11期

相关会议论文 前10条

1 罗武骏;包永强;赵力;;基于模糊支持向量机的语音情感识别方法[A];2012'中国西部声学学术交流会论文集(Ⅱ)[C];2012年

2 陈建厦;;语音情感识别综述[A];第一届中国情感计算及智能交互学术会议论文集[C];2003年

3 王青;谢波;陈根才;;基于神经网络的汉语语音情感识别[A];第一届中国情感计算及智能交互学术会议论文集[C];2003年

4 龚灵杰;袁家政;刘宏哲;;基于加权最近邻的语音情感识别方法[A];中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会论文集[C];2017年

5 宋鹏;郑文明;赵力;;基于子空间学习和特征选择融合的语音情感识别[A];第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集[C];2017年

6 张鼎天;徐明星;;基于调制频谱特征的自动语音情感识别[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年

7 宋鹏;郑文明;赵力;;基于特征迁移学习方法的跨库语音情感识别[A];第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集[C];2015年

8 刘博;范钰超;徐明星;;基于特征级决策级双层融合的语音情感识别[A];第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集[C];2015年

9 杨桃香;杨鉴;毕福昆;;基于模糊聚类的语音情感识别[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年

10 张波;倪佳敏;楼颖祯;陈慧霖;张石清;;基于深度置信网络的语音情感识别研究[A];第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集[C];2015年

相关博士学位论文 前10条

1 查诚;基于特征学习的语音情感识别算法研究[D];东南大学;2017年

2 徐新洲;基于情感特征信息增强的语音情感识别研究[D];东南大学;2017年

3 张卫;基于模糊认知图的语音情感识别关键问题研究[D];太原理工大学;2017年

4 谢波;普通话语音情感识别关键技术研究[D];浙江大学;2006年

5 尤鸣宇;语音情感识别的关键技术研究[D];浙江大学;2007年

6 陶华伟;基于谱图特征的语音情感识别若干问题的研究[D];东南大学;2017年

7 韩文静;语音情感识别关键技术研究[D];哈尔滨工业大学;2013年

8 刘佳;语音情感识别的研究与应用[D];浙江大学;2009年

9 孙亚新;语音情感识别中的特征提取与识别算法研究[D];华南理工大学;2015年

10 张昕然;跨库语音情感识别若干关键技术研究[D];东南大学;2016年

相关硕士学位论文 前10条

1 卢艳;基于神经网络与注意力机制结合的语音情感识别研究[D];北京邮电大学;2019年

2 李鹏程;基于深度学习的语音情感识别研究[D];中国科学技术大学;2019年

3 沈凌洁;基于音韵表征的语音情感识别改进研究[D];南京师范大学;2018年

4 龚若愚;语音情感识别训练系统设计与实现[D];湖南大学;2014年

5 周晓晓;基于神经网络与多特征融合的维度语音情感识别研究[D];湖南大学;2018年

6 李晓琴;基于支持向量机的语音情感识别[D];哈尔滨理工大学;2018年

7 郑丽;语音情感识别及其在服务机器人中的应用研究[D];东北师范大学;2018年

8 郝梓岚;基于安卓的语音情感识别系统设计与实现[D];广西师范大学;2018年

9 陈晓敏;基于时序深度学习模型的语音情感识别方法研究[D];哈尔滨工业大学;2018年

10 孙洪文;语音情感识别技术的研究与应用[D];哈尔滨工业大学;2017年



本文编号:2613304

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2613304.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户79667***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com