多粒度唇语识别技术研究
发布时间:2021-08-10 17:14
唇语识别是指利用计算机视觉技术根据说话人讲话过程中唇部变化识别出说话内容的技术。要实现准确的唇语识别,需要克服许多挑战,包括说话过程中说话人姿态的变化、所说内容的多样性、以及说话时的光照条件等。针对这些挑战,本文以多粒度信息融合的唇语识别方法为核心展开研究。具体来说,一方面,许多词发音近似,导致说话过程中这些词对应的唇部变化较难区分。对此,本文针对各个时刻进行特征提取与增强,形成侧重表现各个时刻的局部空域变化的细粒度模式,增强不同词之间的差异性;另一方面,虽然不同人的说话习惯、姿态变化等可能各不相同,但同样的语音内容通常会引起具有一致性规律的面部变化。为此,本文提取各个近邻时空域内的显著性运动模式,构建视觉表达的中粒度模式,捕捉各个单词对应的面部变化规律;最后,本文通过引入前后时刻的关联性,提取从整个序列层面考虑的全局模式,形成能鲁棒应对不同说话习惯、视频中不同光照条件等非一致性的表达。本文主要完成了以下工作:1)协助构建了一个大规模普通话单词唇语数据集LRW-1000。考虑到深度学习算法离不开大规模的数据,本文标注了一个单词级的普通话唇语数据集LRW-1000,为本文的方法实验奠定了...
【文章来源】:中国科学院大学(中国科学院大学人工智能学院)北京市
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图1.1唇语识别的相关应用示例??Figure?1.1?Application?examples?for?lip-reading??
?产生整个序列的最终表示。该方法在当前具有挑战性的数据集LRW上取得了优??异的结果,证明了这种多塔式结构的有效性。??softmax??conv3?-?fcB??P〇〇I2?3k3??conv2?3x3?256??convld?1x1?98??concat?fWxHx?1200J??pooH?3x3?pooH?3x3?poo!?1?3x3??convl?3x3?48?…conv1?3x3?48?…convl?3x3?48??S?...?1?...?■??MT??图1.2基于全2D卷积模型的唇语识别方法[22]??Figure?1.2?Lip-reading?method?based?on?full?2D?convolution?model??t?frames?STC-NN?4-?Spatial?Pooling?Bi-OEU?Linear?CTC?\<ms??(x3)?(x2)??图1.3基于全3D卷积模型的唇语识别方法[24]??Figure?1.3?Lip-reading?method?based?on?full?3D?convolution?model??(2)基于全3D卷积网络的模型。在唇语识别中广泛使用3D卷积层的一个??直接原因是源于3D卷积神经网络在动作识别p31中的成功。以全3D网络为前端??的一个代表性工作是LipNet[r!4]模型。如图1.3所示,它的前端网络包含了三个??3D卷积层,这些层将输入的原始视频转换为短时时空特征,随后输入后续的门??控循环单兀与Connectionist?Temporal?Classification?(CTC)损失函数,得到最终??的预测结果,
?产生整个序列的最终表示。该方法在当前具有挑战性的数据集LRW上取得了优??异的结果,证明了这种多塔式结构的有效性。??softmax??conv3?-?fcB??P〇〇I2?3k3??conv2?3x3?256??convld?1x1?98??concat?fWxHx?1200J??pooH?3x3?pooH?3x3?poo!?1?3x3??convl?3x3?48?…conv1?3x3?48?…convl?3x3?48??S?...?1?...?■??MT??图1.2基于全2D卷积模型的唇语识别方法[22]??Figure?1.2?Lip-reading?method?based?on?full?2D?convolution?model??t?frames?STC-NN?4-?Spatial?Pooling?Bi-OEU?Linear?CTC?\<ms??(x3)?(x2)??图1.3基于全3D卷积模型的唇语识别方法[24]??Figure?1.3?Lip-reading?method?based?on?full?3D?convolution?model??(2)基于全3D卷积网络的模型。在唇语识别中广泛使用3D卷积层的一个??直接原因是源于3D卷积神经网络在动作识别p31中的成功。以全3D网络为前端??的一个代表性工作是LipNet[r!4]模型。如图1.3所示,它的前端网络包含了三个??3D卷积层,这些层将输入的原始视频转换为短时时空特征,随后输入后续的门??控循环单兀与Connectionist?Temporal?Classification?(CTC)损失函数,得到最终??的预测结果,
【参考文献】:
期刊论文
[1]高安全性人脸识别系统中的唇语识别算法研究[J]. 任玉强,田国栋,周祥东,吕江靖,周曦. 计算机应用研究. 2017(04)
[2]身份认证中灰度共生矩阵和小波分析的活体人脸检测算法[J]. 曹瑜,涂玲,毋立芳. 信号处理. 2014(07)
本文编号:3334463
【文章来源】:中国科学院大学(中国科学院大学人工智能学院)北京市
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图1.1唇语识别的相关应用示例??Figure?1.1?Application?examples?for?lip-reading??
?产生整个序列的最终表示。该方法在当前具有挑战性的数据集LRW上取得了优??异的结果,证明了这种多塔式结构的有效性。??softmax??conv3?-?fcB??P〇〇I2?3k3??conv2?3x3?256??convld?1x1?98??concat?fWxHx?1200J??pooH?3x3?pooH?3x3?poo!?1?3x3??convl?3x3?48?…conv1?3x3?48?…convl?3x3?48??S?...?1?...?■??MT??图1.2基于全2D卷积模型的唇语识别方法[22]??Figure?1.2?Lip-reading?method?based?on?full?2D?convolution?model??t?frames?STC-NN?4-?Spatial?Pooling?Bi-OEU?Linear?CTC?\<ms??(x3)?(x2)??图1.3基于全3D卷积模型的唇语识别方法[24]??Figure?1.3?Lip-reading?method?based?on?full?3D?convolution?model??(2)基于全3D卷积网络的模型。在唇语识别中广泛使用3D卷积层的一个??直接原因是源于3D卷积神经网络在动作识别p31中的成功。以全3D网络为前端??的一个代表性工作是LipNet[r!4]模型。如图1.3所示,它的前端网络包含了三个??3D卷积层,这些层将输入的原始视频转换为短时时空特征,随后输入后续的门??控循环单兀与Connectionist?Temporal?Classification?(CTC)损失函数,得到最终??的预测结果,
?产生整个序列的最终表示。该方法在当前具有挑战性的数据集LRW上取得了优??异的结果,证明了这种多塔式结构的有效性。??softmax??conv3?-?fcB??P〇〇I2?3k3??conv2?3x3?256??convld?1x1?98??concat?fWxHx?1200J??pooH?3x3?pooH?3x3?poo!?1?3x3??convl?3x3?48?…conv1?3x3?48?…convl?3x3?48??S?...?1?...?■??MT??图1.2基于全2D卷积模型的唇语识别方法[22]??Figure?1.2?Lip-reading?method?based?on?full?2D?convolution?model??t?frames?STC-NN?4-?Spatial?Pooling?Bi-OEU?Linear?CTC?\<ms??(x3)?(x2)??图1.3基于全3D卷积模型的唇语识别方法[24]??Figure?1.3?Lip-reading?method?based?on?full?3D?convolution?model??(2)基于全3D卷积网络的模型。在唇语识别中广泛使用3D卷积层的一个??直接原因是源于3D卷积神经网络在动作识别p31中的成功。以全3D网络为前端??的一个代表性工作是LipNet[r!4]模型。如图1.3所示,它的前端网络包含了三个??3D卷积层,这些层将输入的原始视频转换为短时时空特征,随后输入后续的门??控循环单兀与Connectionist?Temporal?Classification?(CTC)损失函数,得到最终??的预测结果,
【参考文献】:
期刊论文
[1]高安全性人脸识别系统中的唇语识别算法研究[J]. 任玉强,田国栋,周祥东,吕江靖,周曦. 计算机应用研究. 2017(04)
[2]身份认证中灰度共生矩阵和小波分析的活体人脸检测算法[J]. 曹瑜,涂玲,毋立芳. 信号处理. 2014(07)
本文编号:3334463
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3334463.html
最近更新
教材专著