多粒度唇语识别技术研究

发布时间：2021-08-10 17:14

　　唇语识别是指利用计算机视觉技术根据说话人讲话过程中唇部变化识别出说话内容的技术。要实现准确的唇语识别,需要克服许多挑战,包括说话过程中说话人姿态的变化、所说内容的多样性、以及说话时的光照条件等。针对这些挑战,本文以多粒度信息融合的唇语识别方法为核心展开研究。具体来说,一方面,许多词发音近似,导致说话过程中这些词对应的唇部变化较难区分。对此,本文针对各个时刻进行特征提取与增强,形成侧重表现各个时刻的局部空域变化的细粒度模式,增强不同词之间的差异性;另一方面,虽然不同人的说话习惯、姿态变化等可能各不相同,但同样的语音内容通常会引起具有一致性规律的面部变化。为此,本文提取各个近邻时空域内的显著性运动模式,构建视觉表达的中粒度模式,捕捉各个单词对应的面部变化规律;最后,本文通过引入前后时刻的关联性,提取从整个序列层面考虑的全局模式,形成能鲁棒应对不同说话习惯、视频中不同光照条件等非一致性的表达。本文主要完成了以下工作:1)协助构建了一个大规模普通话单词唇语数据集LRW-1000。考虑到深度学习算法离不开大规模的数据,本文标注了一个单词级的普通话唇语数据集LRW-1000,为本文的方法实验奠定了...

【文章来源】：中国科学院大学(中国科学院大学人工智能学院)北京市

【文章页数】：61 页

【学位级别】：硕士

【部分图文】：

多粒度唇语识别技术研究

图１．１唇语识别的相关应用示例??Ｆｉｇｕｒｅ?１．１?Ａｐｐｌｉｃａｔｉｏｎ?ｅｘａｍｐｌｅｓ?ｆｏｒ?ｌｉｐ－ｒｅａｄｉｎｇ??

模型图,卷积,模型,方法

?产生整个序列的最终表示。该方法在当前具有挑战性的数据集ＬＲＷ上取得了优??异的结果，证明了这种多塔式结构的有效性。??ｓｏｆｔｍａｘ??ｃｏｎｖ３?－?ｆｃＢ??Ｐ〇〇Ｉ２?３ｋ３??ｃｏｎｖ２?３ｘ３?２５６??ｃｏｎｖｌｄ?１ｘ１?９８??ｃｏｎｃａｔ?ｆＷｘＨｘ?１２００Ｊ??ｐｏｏＨ?３ｘ３?ｐｏｏＨ?３ｘ３?ｐｏｏ！?１?３ｘ３??ｃｏｎｖｌ?３ｘ３?４８?…ｃｏｎｖ１?３ｘ３?４８?…ｃｏｎｖｌ?３ｘ３?４８??Ｓ?．．．?１?．．．?■??ＭＴ??图１．２基于全２Ｄ卷积模型的唇语识别方法［２２］??Ｆｉｇｕｒｅ?１．２?Ｌｉｐ－ｒｅａｄｉｎｇ?ｍｅｔｈｏｄ?ｂａｓｅｄ?ｏｎ?ｆｕｌｌ?２Ｄ?ｃｏｎｖｏｌｕｔｉｏｎ?ｍｏｄｅｌ??ｔ?ｆｒａｍｅｓ?ＳＴＣ－ＮＮ?４－?Ｓｐａｔｉａｌ?Ｐｏｏｌｉｎｇ?Ｂｉ－ＯＥＵ?Ｌｉｎｅａｒ?ＣＴＣ?＼＜ｍｓ??（ｘ３）?（ｘ２）??图１．３基于全３Ｄ卷积模型的唇语识别方法［２４］??Ｆｉｇｕｒｅ?１．３?Ｌｉｐ－ｒｅａｄｉｎｇ?ｍｅｔｈｏｄ?ｂａｓｅｄ?ｏｎ?ｆｕｌｌ?３Ｄ?ｃｏｎｖｏｌｕｔｉｏｎ?ｍｏｄｅｌ??（２）基于全３Ｄ卷积网络的模型。在唇语识别中广泛使用３Ｄ卷积层的一个??直接原因是源于３Ｄ卷积神经网络在动作识别ｐ３１中的成功。以全３Ｄ网络为前端??的一个代表性工作是ＬｉｐＮｅｔ［ｒ！４］模型。如图１．３所示，它的前端网络包含了三个??３Ｄ卷积层，这些层将输入的原始视频转换为短时时空特征，随后输入后续的门??控循环单兀与Ｃｏｎｎｅｃｔｉｏｎｉｓｔ?Ｔｅｍｐｏｒａｌ?Ｃｌａｓｓｉｆｉｃａｔｉｏｎ?（ＣＴＣ）损失函数，得到最终??的预测结果，

模型图,卷积,模型,方法

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3334463.html

上一篇：双目立体视觉测距系统的研究
下一篇：基于多尺度扩张卷积与对抗学习的左心室分割算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|