基于卷积神经网络的唇语识别技术研究
发布时间:2024-03-24 02:33
自动唇读是一种集计算机视觉、人工智能与自然语言处理于一体的综合技术,可以直接从人讲话时的嘴唇动作图像序列中识别讲话内容,是一种新型的人机交互方式。近年来,随着人工智能技术的快速发展,唇语识别技术也越发的更加成熟起来,其网络模型的识别准确率也有着明显的提高。本文利用公开数据集GRID语料库中的视频数据,在GPU平台上搭建了一个固定结构语句的唇语识别系统,固定结构语句中包括命令、颜色、介词、字母、数字以及副词,例如:“Place blue in m one soon”。所有语句都采用这样的结构,该系统是一个句子层面的唇语识别系统。我们采用一种耦合三维卷积神经网络(3D-CNN)和双向长短期记忆网络(Bi-LSTM)相结合的网络架构对输入的连续75张图片数据进行特征提取,同时,为了不对输入的每一帧图片数据和标签数据进行人工对齐操作,我们采用了CTC损失函数作为唇语识别系统的模型训练损失。采用CTC作为损失函数的唇语识别系统模型训练,是一种完全端到端的唇语识别系统模型训练,不需要预先对数据做对齐,只需要一个连续动作的嘴部图像输入序列和一个标签输出序列即可以训练网络模型。本文使用的网络结构较小,...
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
本文编号:3936835
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
图2-5标准正太分布图
第二章神经网络理论9维的特征向量,在这一层中,所有的神经元都会两两进行连接,目的是把前一层的神经元特征都综合起来,所以一个网络的绝大多数参数都集中在了全连接层。它的最终目的是将最后一层卷积得到的特征图转换成向量,然后对这个向量做乘法,最终降低其维度,全连接层输出的数据经过soft....
图2-6Sigmoid函数图像
第二章神经网络理论10当网络的激活函数为Sigmoid函数时,其公式为:()=11+(2-3)下图2-6为Sigmoid函数图像。图2-6Sigmoid函数图像对Sigmoid函数进行求导操作,其导数公式如下所示:()=()(1())(2-4)图2-7为Sigmoid导函数对应的....
图2-7Sigmoid导函数图像
第二章神经网络理论10当网络的激活函数为Sigmoid函数时,其公式为:()=11+(2-3)下图2-6为Sigmoid函数图像。图2-6Sigmoid函数图像对Sigmoid函数进行求导操作,其导数公式如下所示:()=()(1())(2-4)图2-7为Sigmoid导函数对应的....
图3-2部分视频标签
第三章训练数据集的制作
本文编号:3936835
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3936835.html
最近更新
教材专著