基于深度学习和迁移学习的语音情感识别方法研究
本文关键词:基于深度学习和迁移学习的语音情感识别方法研究,由笔耕文化传播整理发布。
【摘要】:人类的语音作为人与人之间沟通的重要手段和情感表达的重要媒介,已经成为人工智能的重要研究方向。在传统的语音情感识别中,如何提取最具判别性的特征已成为很多研究者关注的内容,其中一个重要的挑战就是在情感特征提取过程中把情感相关因素和情感无关因素(如环境、说话人等的差异)进行分离,使提取的情感特征具有更强的泛化性。传统的语音情感识别有一个前提:训练数据和测试数据来自同一个语料库,也就是两者具有相同的数据分布。但是,由于语音数据是从不同的设备和记录环境下获取的,它们在语言、情感的种类、标记方案等方面存在很大的差异,这时候训练数据和测试数据就具有不同的数据分布,传统的语音情感识别方法已经不能很好地解决这个问题。域适应,作为一种特殊的迁移学习方法,被证明可以有效地解决不同域之间数据分布存在差异的问题。本文针对传统的语音情感识别,提出了可鉴别语音情感特征学习方法;针对跨库的语音情感识别,分别提出了基于先验共享的半监督域适应方法,和基于标签监督和特征分解的无监督域适应方法。具体研究内容如下:1)提出可鉴别语音情感特征学习方法。主要目的是对情感相关因素和情感无关因素进行分离,从而提取情感相关的特征。该方法包括四个步骤。首先,对语音数据进行预处理,得到语谱特征。然后进行无监督特征学习,从语谱特征中提取若干个小块进行无监督预训练,得到核(权重和偏置),利用不同尺寸的小块就能训练不同尺寸的核,然后对整个输入语谱特征利用核进行卷积、池化,并堆叠不同尺寸的池化特征,得到一个初步的粗糙特征表示。接着进行半监督特征学习,将粗糙特征作为输入并映射成两部分,一部分和情感相关,另一部分和情感无关。总的损失函数由四部分组成:重构损失函数、正交损失函数、判别损失函数和认证损失函数。通过正交损失函数,将情感相关的特征和情感无关的特征进行初步的划分。接下来对情感相关的特征进行一些约束。通过判别损失函数,增大不同种类情感的情感相关特征之间的距离;通过认证损失函数,减小同一种类情感的情感特征之间的距离。最后,将半监督特征学习得到的情感相关特征作为一段音频的最终特征表示,结合相应的情感标签,进行分类器的训练。实验在INTERSPEECH 2009情感挑战赛的五类任务上进行评估,利用该方法学习得到的情感相关特征的识别率明显高于在同等条件下使用传统声学特征的识别率。2)提出基于先验共享的语音情感迁移学习方法。主要目的是希望通过共享先验,使得目标域中有标签样本比较少的那些类,能够从源域中相关的类获得一些有用的信息,从而改善目标域的分类性能。提出的模型是一个两层的神经网络模型,第一层是特征提取层,第二层是softmax分类器。第二层参数其实是各个类的分类器参数,在每类都有充足有标签样本的情况下,各个类的分类器参数一般都是独立的,但在半监督域适应下,目标域中的每个类只有很少的有标签样本,只用这些有标签样本不足以训练一个性能出色的分类器,因此本方法对相关的类的分类器参数加上一个共同的先验(也就是相关类的分类器权重向量从同一个分布中产生)。该方法包括三个步骤。首先,对语音数据预处理,得到一个384维特征。然后,利用源域和目标域的无标签数据进行预训练共享隐藏层自动编码器,用于初始化模型的第一层参数。最后,利用源域和目标域的有标签数据进行训练整个两层模型。实验中源域采用ABC或者Emo-DB,目标域采用FAU AEC,在INTERSPEECH 2009情感挑战赛的两类任务上进行评估。实验结果表明,在目标域有标签样本比较少的情况下,提出的基于先验共享方法的召回率要高于没有先验共享的方法,并且高于传统的机器学习方法。3)提出基于标签监督和特征分解的语音情感迁移学习方法。主要目的是同时学习具有域不变性和情感判别性的特征,来弥补域之间的差异,并且学到任务相关的特征。该方法所提出的模型是一个前向神经网络模型,包括三个部分:特征提取,情感标签预测,域标签预测。首先将输入数据解开成两部分:情感相关特征和情感无关特征,然后将情感相关特征进行层次非线性转换得到高层情感特征,进一步采用高层特征进行情感标签和域标签的预测。实验中源域采用ABC或者Emo-DB,目标域采用FAU AEC,在INTERSPEECH2009情感挑战赛的两类任务上进行评估。实验结果表明,该方法的召回率要明显高于传统的机器学习方法和其他一些域适应方法。
【关键词】:语音情感识别 特征学习 深度学习 迁移学习 域适应
【学位授予单位】:江苏大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 绪论11-20
- 1.1 研究背景及意义11-12
- 1.2 语音情感识别相关研究现状12-17
- 1.2.1 情感状态描述模型12-14
- 1.2.2 语音情感库14-15
- 1.2.3 语音情感特征15
- 1.2.4 语音情感识别方法15-16
- 1.2.5 语音情感识别挑战赛16-17
- 1.3 语音情感识别的主要挑战17
- 1.3.1 传统的语音情感识别挑战17
- 1.3.2 跨库的语音情感识别挑战17
- 1.4 本文的主要贡献17-18
- 1.5 论文的组织结构18-20
- 第二章 语音情感识别相关技术20-31
- 2.1 引言20
- 2.2 深度学习20-24
- 2.2.1 自动编码器20-23
- 2.2.2 卷积神经网络23-24
- 2.3 迁移学习24-27
- 2.4 域适应27-29
- 2.4.1 基于实例的域适应方法27-28
- 2.4.2 基于特征的域适应方法28-29
- 2.5 语音情感识别方法29-31
- 2.5.1 传统的语音情感识别方法29
- 2.5.2 跨库的语音情感识别方法29-31
- 第三章 可鉴别语音情感特征学习方法31-39
- 3.1 引言31-32
- 3.2 无监督特征学习32-33
- 3.3 半监督特征学习33-35
- 3.4 实验设计与分析35-37
- 3.4.1 数据库35
- 3.4.2 参数选择35-36
- 3.4.3 实验设置36-37
- 3.4.4 实验结果37
- 3.5 本章小结37-39
- 第四章 基于先验共享的语音情感迁移学习方法39-46
- 4.1 引言39-40
- 4.2 无监督预训练40-41
- 4.3 先验共享41-42
- 4.4 实验设计与分析42-45
- 4.4.1 数据库42-43
- 4.4.2 实验设置43
- 4.4.3 模型比较43
- 4.4.4 实验结果43-45
- 4.5 本章小结45-46
- 第五章 基于标签监督和特征分解的语音情感迁移学习方法46-56
- 5.1 引言46-47
- 5.2 模型介绍47-51
- 5.2.1 情感判别和域不变的特征学习模型EDFLM47-49
- 5.2.2 改进的情感判别和域不变的特征学习模型E_EDFLM49-50
- 5.2.3 识别方法50-51
- 5.3 实验设计与分析51-55
- 5.3.1 数据库51-52
- 5.3.2 实验设置52-53
- 5.3.3 实验结果53-55
- 5.4 本章小结55-56
- 第六章 总结与展望56-58
- 6.1 总结56-57
- 6.2 展望57-58
- 参考文献58-64
- 致谢64-65
- 攻读硕士学位期间发表的学术论文65
【相似文献】
中国期刊全文数据库 前10条
1 赵力;黄程韦;;实用语音情感识别中的若干关键技术[J];数据采集与处理;2014年02期
2 陈建厦,李翠华;语音情感识别的研究进展[J];计算机工程;2005年13期
3 王茜;;一个语音情感识别系统的设计与实现[J];大众科技;2006年08期
4 孙亚;;远程教学中语音情感识别系统的研究与实现[J];长春理工大学学报(高教版);2008年02期
5 章国宝;宋清华;费树岷;赵艳;;语音情感识别研究[J];计算机技术与发展;2009年01期
6 石瑛;胡学钢;方磊;;基于决策树的多特征语音情感识别[J];计算机技术与发展;2009年01期
7 赵腊生;张强;魏小鹏;;语音情感识别研究进展[J];计算机应用研究;2009年02期
8 张石清;赵知劲;;噪声背景下的语音情感识别[J];西南交通大学学报;2009年03期
9 黄程韦;金峗;王青云;赵艳;赵力;;基于特征空间分解与融合的语音情感识别[J];信号处理;2010年06期
10 袁健;贺祥;许华虎;冯肖维;刘玲;;服务机器人的语音情感识别与交互技术研究[J];小型微型计算机系统;2010年07期
中国重要会议论文全文数据库 前8条
1 陈建厦;;语音情感识别综述[A];第一届中国情感计算及智能交互学术会议论文集[C];2003年
2 杨桃香;杨鉴;毕福昆;;基于模糊聚类的语音情感识别[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
3 罗武骏;包永强;赵力;;基于模糊支持向量机的语音情感识别方法[A];2012'中国西部声学学术交流会论文集(Ⅱ)[C];2012年
4 王青;谢波;陈根才;;基于神经网络的汉语语音情感识别[A];第一届中国情感计算及智能交互学术会议论文集[C];2003年
5 张鼎天;徐明星;;基于调制频谱特征的自动语音情感识别[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
6 童灿;;基于boosting HMM的语音情感识别[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
7 戴明洋;杨大利;徐明星;;语音情感识别中UBM训练集的组成研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
8 张卫;张雪英;孙颖;;基于HHT边际Teager能量谱的语音情感识别[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
中国博士学位论文全文数据库 前6条
1 孙亚新;语音情感识别中的特征提取与识别算法研究[D];华南理工大学;2015年
2 韩文静;语音情感识别关键技术研究[D];哈尔滨工业大学;2013年
3 谢波;普通话语音情感识别关键技术研究[D];浙江大学;2006年
4 尤鸣宇;语音情感识别的关键技术研究[D];浙江大学;2007年
5 刘佳;语音情感识别的研究与应用[D];浙江大学;2009年
6 赵腊生;语音情感特征提取与识别方法研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 陈晓东;基于卷积神经网络的语音情感识别[D];华南理工大学;2015年
2 孙志锋;语音情感识别研究[D];陕西师范大学;2015年
3 谭发曾;语音情感状态模糊识别研究[D];电子科技大学;2015年
4 陈鑫;相空间重构在语音情感识别中的研究[D];长沙理工大学;2014年
5 李昌群;基于特征选择的语音情感识别[D];合肥工业大学;2015年
6 陈文汐;基于核函数的语音情感识别技术的研究[D];东南大学;2015年
7 薛文韬;基于深度学习和迁移学习的语音情感识别方法研究[D];江苏大学;2016年
8 韩文静;基于神经网络的语音情感识别技术研究[D];哈尔滨工业大学;2007年
9 王颖;自适应语音情感识别方法研究[D];江苏大学;2009年
10 梁智兰;基于独立分量分析的语音情感识别研究[D];哈尔滨工程大学;2009年
本文关键词:基于深度学习和迁移学习的语音情感识别方法研究,由笔耕文化传播整理发布。
,本文编号:343791
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/343791.html