多模态特征融合的情感识别研究

发布时间:2022-01-08 19:10
  情感识别在人机交互中具有重要意义。一般来说,人的情感主要通过面部表情、姿态表情和言语表情表现。而语音作为人类表达自身的最重要的通道之一,能够有效的表达情感,已被成功用于情感的自动识别中。然而,语音只是情感表达的一种方式,并未包含全部的情感信息,文本信息也能传递说话人的情感。因此,多模态特征融合的情感识别是一个重要的研究方向。本研究的研究目标是使用语音与文本特征融合的方式,来提高情感识别的准确率。基于此目标设计了如下实验:首先,对语音数据进行预处理,通过提取低层次声学特征,在低层次声学特征上应用了各种统计函数构建全局声学特征,并将其用于语音情感识别。用语音训练的识别模型作为基线系统与后续的识别模型进行比较。其次,对文本语句进行预处理,提取不同特征的提取,共生成3类特征,分别为词袋特征、词向量和句向量,用于文本情感识别,选择三类特征中识别准确率最高的文本特征用于后续与语音特征融合。最后,将语音与表现最好的文本特征进行特征融合进行情感识别,比较它们在IEMOCAP数据集上情感识别的性能。在特征融合时,采用了两种特征融合方式,分别为特征层融合和决策层融合。最终,本研究根据语音与文本特征融合后的... 

【文章来源】:南京师范大学江苏省 211工程院校

【文章页数】:60 页

【学位级别】:硕士

【部分图文】:

多模态特征融合的情感识别研究


图3.3加窗??

输出数,输入门,模型


存储历史信息,门是一种让信息选择式通过的方法。它们包括一个sigmoid神经??网络层和一个pointwise乘法运算。Sigmoid层的输出是0-1之间的数值,决定着??每一个部分有多少量可以通过。LSTM的结构如图3.4所示。??LSTM通过三个门结构来实现信息的保护和控制。这三个门分别输入门、遗??忘门和输出门。??遗忘门决定丢弃前一个记忆单元中的某些信息,读取h_{t-l}和x_t,并每个??在细胞状态C_{M}中输出一个在0到1之间的值。1表示“全部保留”,0表示??“全部舍弃”。??ft?=?aiW^lh^.Xtj?+?bf)??其中Zitq表示的是上一个cell的输出,表示的是当前细胞的输入。<T表示sigmod??函数。??输入门决定在单元状态屮存储什么样的新信息。这包括两个部分。首先是??23??

【参考文献】:
期刊论文
[1]文本情绪分析综述[J]. 李然,林政,林海伦,王伟平,孟丹.  计算机研究与发展. 2018(01)
[2]基于语音信号与文本信息的双模态情感识别[J]. 陈鹏展,张欣,徐芳萍.  华东交通大学学报. 2017(02)
[3]结合全局词向量特征的循环神经网络语言模型[J]. 李华,屈丹,张文林,王炳锡,梁玉龙.  信号处理. 2016(06)
[4]人机交互中的语音情感识别研究进展[J]. 张石清,李乐民,赵知劲.  电路与系统学报. 2013(02)
[5]基于样本熵与MFCC融合的语音情感识别[J]. 屠彬彬,于凤芹.  计算机工程. 2012(07)
[6]一种基于HMM和ANN的语音情感识别分类器[J]. 罗毅.  微计算机信息. 2007(34)



本文编号:3577118

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3577118.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e86a5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com