基于音视频的情绪识别研究

发布时间:2022-01-22 08:59
  情绪识别技术在医疗、教育、服务、交互等领域具有广泛的应用前景。作为人工智能的一个重要研究领域,情绪识别技术近年来取得了较大进步。但是,由于情绪状态本身具有较大的复杂多样性,个体情绪的表现形式又受到文化和个性的影响,情绪识别技术目前还存在识别率不高、识别效果不稳定、应用条件受限等问题。本课题主要研究基于音视频数据的情绪识别问题。在研究基于视频的面部表情识别时,分别尝试了长短时记忆神经网络(long-short term memory,LSTM)和三维卷积神经网络两种神经网络技术进行模型训练,这是因为长短时记忆神经网络多用于处理数据具有时序性的问题,三维卷积神经网络则可以挖掘图像帧与帧间的信息。首先对数据进行了预处理的操作,将截取的面部图像保存,然后提取HOG特征和几何特征。LSTM神经网络利用面部的HOG特征,几何特征以及二者的级联作为输入。三维卷积神经网络则直接利用视频图像自动生成复杂特征然后进行模型训练。音频情绪识别模型使用了人工特征提取加LSTM神经网络的方法。首先对音频数据进行预处理,然后使用Open SMILE工具提取短时过零率、短时能量和梅尔倒谱系数等特征,构建LSTM网络模... 

【文章来源】:北方工业大学北京市

【文章页数】:56 页

【学位级别】:硕士

【部分图文】:

基于音视频的情绪识别研究


人脸几何特征示意图

结构图,结构图,神经网络,序列


第三章基于LSTM模型的情绪识别13第三章基于LSTM模型的情绪识别长短时记忆神经网络(LSTM)是一种特殊的循环神经网络。循环神经网络(RecurrentNeuralNetwork,RNN)能够利用数据中的时序信息这是相比于其他神经网络最大的优势,但是也存在着梯度消失的问题。长短时记忆网络(Longshort-termmemory,LSTM)能较好地解决这一问题,所以长短时记忆网络在深度学习中较为常用。视频数据其实就是一种序列数据,视频是由一帧帧的图像构成在时间轴上就是一种时序数据即具有序列信息的数据,所以构建LSTM模型进行情绪识别的实验。3.1循环神经网络循环神经网络的输入数据是一类序列数据,序列数据具有时间维上的信息。循环神经网络在序列的演进方向进行递归操作,其所有神经节点进行了链式连接,是一种递归神经网络[27]。图3-1为循环神经网络的结构图,循环神经网络较其他网络最大的不同是相同层之间也建立了连接,上一时刻的输出对下一时刻的输出也造成了影响,这就正体现了循环神经网络在处理序列数据的优势。图中X={0x,1x,2x,...,tx}为输入数据,tx为第t时刻输入的向量,th为第t时刻的隐藏状态,A为神经元。循环神经网络和其他神经网络一样都存在梯度消失的问题,这就导致前面较长时刻信息对当前时刻输入产生较小影响,这就是循环神经网络存在的长时依赖问题。序列数据较长在使用循环神经网络模型时是需要进行考虑的。图3-1RNN结构图


本文编号:3601911

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3601911.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户138ad***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com