基于深度学习的唇语识别技术研究
发布时间:2021-01-04 23:11
听觉作为人类一种重要的能力,是与人交流的重要媒介,但很多人因为先天或者后天的缺陷无法通过听觉来与人交流。唇语作为一种通过视觉判断说话内容的技术可以帮助他们实现快速沟通。除此之外,唇语的识别对于嘈杂环境语音识别、安防系统认证和公共安全分析中都有重要应用。这些因素决定了唇语识别研究的重要价值。如今,深度学习的发展,推动着唇语识别的快速发展。本文着重对基于深度学习的唇语识别技术进行了研究。由于深度学习本质是由数据驱动的算法,越来越多成功的深度学习例子都说明了数据集的质量决定着深度学习算法模型训练结果的好坏,对于唇语的识别也不例外。本文从唇语数据集出发,针对唇语识别数据集构建时的难点,设计了一种基于金字塔LK(Lucas-Kanade)光流法的唇语自动标注系统。该系统首先利用语音处理技术和人脸唇部区域定位技术对视频进行预处理,再利用光流法计算出相邻帧之间嘴唇的运动信息来精确地标注出嘴唇变化所对应的时间,完成标注任务。相比于单单利用语音识别标注的方法,本系统标注出的唇语样本更为精确,数据集质量更高。为实现中文的唇语识别,本文采用该系统建立了一种中文常用语唇语数据集CPLDS(Chinese Ph...
【文章来源】:中国科学院大学(中国科学院西安光学精密机械研究所)陕西省
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
神经元
第2章深度学习理论9该多层感知器中含有一个隐藏层,该层有5个隐藏单元,多层感知器按以下方式计算输出:()hhHXWb...(2.1)ooOHWb...(2.2)其中输入样本Xnd,n为批量大小,批量n是一次输入供模型计算的数据量(通常情况下,n越大模型训练速度越快),输入样本特征数为d(在本例中d4)。由于该多层感知机中只有一个隐藏层,其中隐藏层单元个数为h(本例中h5),记H为隐藏层的输出,有Hnh。隐藏层的权重参数和偏差参数分别为dhhW和1hhb,输出层的权重和偏差参数分别为hqoW与1qob。为激活函数,激活函数是一种非线性函数。神经网络相比于传统的线性回归相比,最大的区别在于引入了激活函数。激活函数是一种非线性映射,将输入的值非线性映射到激活函数的值域中。通过激活函数的作用,多层神经网络可以从数据中学习到更为复杂的函数表达[26]。深度学习中激活函数主要有以下几种:(1)Relu函数公式(2.3)为Relu(RectifiedLinearUnit)函数的表达式,图2.4表示Relu函数的曲线图。Relu(x)max(x,0)...(2.3)图2.4Relu函数曲线图Figure2.4Relufunctiongraph
基于深度学习的唇语识别技术研究10(2)Sigmoid函数Sigmoid函数可以将元素的值非线性变换到0和1之间,公式(2.4)为Sigmoid函数的表达式,图2.5为Sigmoid函数的曲线图。1()1exp()Sigmoidxx...(2.4)图2.5Sigmoid函数曲线图Figure2.5Sigmoidfunctiongraph(3)双曲正切函数双曲正切函数(Tanh)可以将元素变换到-1和1之间。公式(2.5)为Tanh函数的表达式,图2.6为Tanh函数的曲线图。1exp(2)Tanh()1exp(2)xxx...(2.5)图2.6Tanh函数曲线图Figure2.6Tanhfunctiongraph
【参考文献】:
期刊论文
[1]一种基于long short-term memory的唇语识别方法[J]. 马宁,田国栋,周曦. 中国科学院大学学报. 2018(01)
[2]卷积神经网络研究综述[J]. 李彦冬,郝宗波,雷航. 计算机应用. 2016(09)
[3]高安全性人脸识别系统中的唇语识别算法研究[J]. 任玉强,田国栋,周祥东,吕江靖,周曦. 计算机应用研究. 2017(04)
[4]图像理解中的卷积神经网络[J]. 常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安. 自动化学报. 2016(09)
[5]唇语识别关键技术研究进展[J]. 荣传振,岳振军,贾永兴,王渊,杨宇. 数据采集与处理. 2012(S2)
[6]基于改进光流法的运动目标检测[J]. 杨叶梅. 计算机与数字工程. 2011(09)
[7]语音端点检测技术研究进展[J]. 韩立华,王博,段淑凤. 计算机应用研究. 2010(04)
[8]一种改进的光流算法[J]. 杨国亮,王志良,牟世堂,解仑,刘冀伟. 计算机工程. 2006(15)
[9]基于句子级的唇语识别技术[J]. 徐铭辉,姚鸿勋. 计算机工程与应用. 2005(08)
硕士论文
[1]基于时序深度学习模型的语音情感识别方法研究[D]. 陈晓敏.哈尔滨工业大学 2018
[2]基于深度学习的唇语识别应用的研究与实现[D]. 杨帆.电子科技大学 2018
[3]基于HMM与深度学习的唇读识别研究[D]. 宋文明.大连理工大学 2017
[4]基于迁移学习的单样本人脸识别[D]. 张琦.哈尔滨工程大学 2016
[5]基于卷积神经网络的人脸识别研究与实现[D]. 万士宁.电子科技大学 2016
[6]基于深度神经网络的用户会话推荐算法研究[D]. 俞骋超.浙江大学 2016
[7]卷积神经网络及其应用[D]. 李飞腾.大连理工大学 2014
[8]基于隐含马尔可夫模型的计算机唇读算法研究[D]. 闫龙.哈尔滨工业大学 2013
[9]卷积神经网络在图像识别上的应用的研究[D]. 许可.浙江大学 2012
[10]多层感知器神经网络的局部泛化误差模型[D]. 杨飞.哈尔滨工业大学 2008
本文编号:2957538
【文章来源】:中国科学院大学(中国科学院西安光学精密机械研究所)陕西省
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
神经元
第2章深度学习理论9该多层感知器中含有一个隐藏层,该层有5个隐藏单元,多层感知器按以下方式计算输出:()hhHXWb...(2.1)ooOHWb...(2.2)其中输入样本Xnd,n为批量大小,批量n是一次输入供模型计算的数据量(通常情况下,n越大模型训练速度越快),输入样本特征数为d(在本例中d4)。由于该多层感知机中只有一个隐藏层,其中隐藏层单元个数为h(本例中h5),记H为隐藏层的输出,有Hnh。隐藏层的权重参数和偏差参数分别为dhhW和1hhb,输出层的权重和偏差参数分别为hqoW与1qob。为激活函数,激活函数是一种非线性函数。神经网络相比于传统的线性回归相比,最大的区别在于引入了激活函数。激活函数是一种非线性映射,将输入的值非线性映射到激活函数的值域中。通过激活函数的作用,多层神经网络可以从数据中学习到更为复杂的函数表达[26]。深度学习中激活函数主要有以下几种:(1)Relu函数公式(2.3)为Relu(RectifiedLinearUnit)函数的表达式,图2.4表示Relu函数的曲线图。Relu(x)max(x,0)...(2.3)图2.4Relu函数曲线图Figure2.4Relufunctiongraph
基于深度学习的唇语识别技术研究10(2)Sigmoid函数Sigmoid函数可以将元素的值非线性变换到0和1之间,公式(2.4)为Sigmoid函数的表达式,图2.5为Sigmoid函数的曲线图。1()1exp()Sigmoidxx...(2.4)图2.5Sigmoid函数曲线图Figure2.5Sigmoidfunctiongraph(3)双曲正切函数双曲正切函数(Tanh)可以将元素变换到-1和1之间。公式(2.5)为Tanh函数的表达式,图2.6为Tanh函数的曲线图。1exp(2)Tanh()1exp(2)xxx...(2.5)图2.6Tanh函数曲线图Figure2.6Tanhfunctiongraph
【参考文献】:
期刊论文
[1]一种基于long short-term memory的唇语识别方法[J]. 马宁,田国栋,周曦. 中国科学院大学学报. 2018(01)
[2]卷积神经网络研究综述[J]. 李彦冬,郝宗波,雷航. 计算机应用. 2016(09)
[3]高安全性人脸识别系统中的唇语识别算法研究[J]. 任玉强,田国栋,周祥东,吕江靖,周曦. 计算机应用研究. 2017(04)
[4]图像理解中的卷积神经网络[J]. 常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安. 自动化学报. 2016(09)
[5]唇语识别关键技术研究进展[J]. 荣传振,岳振军,贾永兴,王渊,杨宇. 数据采集与处理. 2012(S2)
[6]基于改进光流法的运动目标检测[J]. 杨叶梅. 计算机与数字工程. 2011(09)
[7]语音端点检测技术研究进展[J]. 韩立华,王博,段淑凤. 计算机应用研究. 2010(04)
[8]一种改进的光流算法[J]. 杨国亮,王志良,牟世堂,解仑,刘冀伟. 计算机工程. 2006(15)
[9]基于句子级的唇语识别技术[J]. 徐铭辉,姚鸿勋. 计算机工程与应用. 2005(08)
硕士论文
[1]基于时序深度学习模型的语音情感识别方法研究[D]. 陈晓敏.哈尔滨工业大学 2018
[2]基于深度学习的唇语识别应用的研究与实现[D]. 杨帆.电子科技大学 2018
[3]基于HMM与深度学习的唇读识别研究[D]. 宋文明.大连理工大学 2017
[4]基于迁移学习的单样本人脸识别[D]. 张琦.哈尔滨工程大学 2016
[5]基于卷积神经网络的人脸识别研究与实现[D]. 万士宁.电子科技大学 2016
[6]基于深度神经网络的用户会话推荐算法研究[D]. 俞骋超.浙江大学 2016
[7]卷积神经网络及其应用[D]. 李飞腾.大连理工大学 2014
[8]基于隐含马尔可夫模型的计算机唇读算法研究[D]. 闫龙.哈尔滨工业大学 2013
[9]卷积神经网络在图像识别上的应用的研究[D]. 许可.浙江大学 2012
[10]多层感知器神经网络的局部泛化误差模型[D]. 杨飞.哈尔滨工业大学 2008
本文编号:2957538
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2957538.html
最近更新
教材专著