基于深度学习的中文唇语识别与关键词检测
发布时间:2021-04-02 16:01
唇语识别是一项集计算机视觉与自然语言处理于一体的技术,通过视觉信息识别讲话人所说的内容。传统的唇语识别方法需要人为设计特征,分类器训练难度大,研究进展缓慢。近年来,深度学习在诸多领域取得重大进展,使用深度学习方法研究唇语识别问题也逐渐成为研究热点。汉字数量多,比其它由字母组成的语言复杂,使得中文唇语识别任务更加困难。现实中,由于某些场景只需要识别关键词语,因此关键词检测识别在实际应用中非常重要。本论文的研究内容主要包括以下两个部分:(1)中文句子级唇语识别方法研究。分两个阶段对中文句子级唇语识别进行研究。第一阶段将唇部图片序列识别为拼音序列,该阶段使用融合的三维卷积和二维DenseNet来提取视觉信息,并用resBi-LSTM(residual bidirectional Long Short-Term Memory)解码视觉特征。该方法在中文数据集NSTDB上有效降低了拼音错误率,并在英文数据集GRID上降低了单词错误率。第二阶段将拼音序列识别为汉字序列,使用堆叠的多头注意力(Multi-head attention)学习拼音序列中的上下文信息,并建立与汉字序列之间的映射关系。由于预...
【文章来源】:华侨大学福建省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
左图为全局连接,右图为局部连接
华侨大学硕士学位论文14两个对应的偏置项0、1,例如,输出矩阵中第一个结果5,就是由卷积核与窗口矩阵的对应位分别相乘后相加得到4,然后加上偏置项0=1,最后得到5。图2.2三维卷积计算示意图(2)池化层卷积神经网络通常会包含池化层,通常紧跟在卷积层之后使用,负责特征选择。池化是一种非线性变换,池化函数使用某位置相邻输出的总体统计特征作为网络在该位置的输出。池化层主要是为了压缩数据和参数量,因此,池化层也是为了选择较为重要的特征点,这可以降低维度,能够在一定程度上防止过拟合的发生。常见的数据压缩的池化方法有最大池化和平均池化。最大池化选择每个窗
华侨大学硕士学位论文16到下一时刻状态转移的权重矩阵,是隐含层到输出层的权重矩阵。从图中可以看到,不仅相邻的层之间(例如输入层到隐藏层)存在连接,在时间维度上的隐藏层之间(1到,反馈链接)也存在连接。在时刻,隐状态不仅和当前时刻的输入有关,还和上一个时刻的隐状态1有关,从而就和过去的全部输入序列(1,2,,)有关。隐状态的计算过程如公式2.2所示,b表示偏置项,()表示非线性激活函数,通常选用Sigmoid函数、ReLU函数或Tanh函数。=(1++)(2.2)图2.3循环神经网络结构图时刻的输出值如公式2.3所示,其中()表示激活函数,可使用Softmax函数。=()(2.3)上述的循环神经网络模型建立在当前时间步取决于前面较早时间步的序列的基础上,因此,RNN中的信息都是通过隐藏状态从前向后传递。但是,在一些任务中,当前时间步的输出不仅仅和前面较早时间步的信息有关,还与后续时间步的信息相关。比如给定一个句子,句子中每个词的词性都和上下文有关。双向循环神经网络(BidirectionalRecurrentNeuralNetwork,Bi-RNN)由此而生,通过增加从后往前传递信息的隐藏层来更灵活地处理这类信息。双向循环神经网络Bi-RNN的结构图如图2.4所示,由两层循环神经网络组成,这两层网络都输入序列,信息传递方向相反。假设隐含层的第1层按照时间顺序传递信息,第2层按照时间逆序传递信息,这两层在时刻的隐状态分别为(1)和(2),则隐含层的隐状态是这两个隐状态的拼接,可以表示为:
【参考文献】:
期刊论文
[1]用于可靠身份认证的唇语识别[J]. 杨龙生,贾振堂. 电视技术. 2018(10)
[2]在DCT域进行LDA的唇读特征提取方法[J]. 何俊,张华,刘继忠. 计算机工程与应用. 2009(32)
[3]基于多色彩空间的自适应嘴唇区域定位算法[J]. 奉小慧,王伟凝,吴绪镇,潘爵雨. 计算机应用. 2009(07)
[4]视觉驱动的语音合成系统中唇形轮廓的正交变换描述[J]. 李刚,王蒙军,林凌,曾锐利. 光学精密工程. 2007(07)
[5]基于SVD的唇动视觉语音特征提取技术[J]. 张建明,陶宏,王良民,詹永照,宋顺林. 江苏大学学报(自然科学版). 2004(05)
[6]基于色度分析的唇动特征提取与识别[J]. 姚鸿勋,吕雅娟,高文. 电子学报. 2002(02)
[7]用于口型识别的实时唇定位方法[J]. 姚鸿勋,高文,李静梅,吕雅娟,王瑞. 软件学报. 2000(08)
[8]基于彩色图像的色系坐标变换的面部定位与跟踪法[J]. 姚鸿勋,刘明宝,高文,范旭彤,张洪明,吕雅娟. 计算机学报. 2000(02)
[9]汉语听觉视觉双模态数据库CAVSR1.0[J]. 徐彦君,杜利民,李国强,张欣,周治. 声学学报. 2000(01)
博士论文
[1]唇读识别中若干问题的研究[D]. 张泽梁.吉林大学 2012
硕士论文
[1]基于深度学习的中文唇语识别研究[D]. 蔡微微.华侨大学 2019
[2]基于隐马尔可夫模型的唇语识别方法研究[D]. 蔡瀛.北方工业大学 2018
[3]基于深度学习的唇语识别应用的研究与实现[D]. 杨帆.电子科技大学 2018
[4]基于Kinect三维视觉的实时唇读技术研究[D]. 岳帅.天津大学 2017
[5]唇读系统关键技术的研究[D]. 焦晓晖.哈尔滨工业大学 2015
本文编号:3115543
【文章来源】:华侨大学福建省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
左图为全局连接,右图为局部连接
华侨大学硕士学位论文14两个对应的偏置项0、1,例如,输出矩阵中第一个结果5,就是由卷积核与窗口矩阵的对应位分别相乘后相加得到4,然后加上偏置项0=1,最后得到5。图2.2三维卷积计算示意图(2)池化层卷积神经网络通常会包含池化层,通常紧跟在卷积层之后使用,负责特征选择。池化是一种非线性变换,池化函数使用某位置相邻输出的总体统计特征作为网络在该位置的输出。池化层主要是为了压缩数据和参数量,因此,池化层也是为了选择较为重要的特征点,这可以降低维度,能够在一定程度上防止过拟合的发生。常见的数据压缩的池化方法有最大池化和平均池化。最大池化选择每个窗
华侨大学硕士学位论文16到下一时刻状态转移的权重矩阵,是隐含层到输出层的权重矩阵。从图中可以看到,不仅相邻的层之间(例如输入层到隐藏层)存在连接,在时间维度上的隐藏层之间(1到,反馈链接)也存在连接。在时刻,隐状态不仅和当前时刻的输入有关,还和上一个时刻的隐状态1有关,从而就和过去的全部输入序列(1,2,,)有关。隐状态的计算过程如公式2.2所示,b表示偏置项,()表示非线性激活函数,通常选用Sigmoid函数、ReLU函数或Tanh函数。=(1++)(2.2)图2.3循环神经网络结构图时刻的输出值如公式2.3所示,其中()表示激活函数,可使用Softmax函数。=()(2.3)上述的循环神经网络模型建立在当前时间步取决于前面较早时间步的序列的基础上,因此,RNN中的信息都是通过隐藏状态从前向后传递。但是,在一些任务中,当前时间步的输出不仅仅和前面较早时间步的信息有关,还与后续时间步的信息相关。比如给定一个句子,句子中每个词的词性都和上下文有关。双向循环神经网络(BidirectionalRecurrentNeuralNetwork,Bi-RNN)由此而生,通过增加从后往前传递信息的隐藏层来更灵活地处理这类信息。双向循环神经网络Bi-RNN的结构图如图2.4所示,由两层循环神经网络组成,这两层网络都输入序列,信息传递方向相反。假设隐含层的第1层按照时间顺序传递信息,第2层按照时间逆序传递信息,这两层在时刻的隐状态分别为(1)和(2),则隐含层的隐状态是这两个隐状态的拼接,可以表示为:
【参考文献】:
期刊论文
[1]用于可靠身份认证的唇语识别[J]. 杨龙生,贾振堂. 电视技术. 2018(10)
[2]在DCT域进行LDA的唇读特征提取方法[J]. 何俊,张华,刘继忠. 计算机工程与应用. 2009(32)
[3]基于多色彩空间的自适应嘴唇区域定位算法[J]. 奉小慧,王伟凝,吴绪镇,潘爵雨. 计算机应用. 2009(07)
[4]视觉驱动的语音合成系统中唇形轮廓的正交变换描述[J]. 李刚,王蒙军,林凌,曾锐利. 光学精密工程. 2007(07)
[5]基于SVD的唇动视觉语音特征提取技术[J]. 张建明,陶宏,王良民,詹永照,宋顺林. 江苏大学学报(自然科学版). 2004(05)
[6]基于色度分析的唇动特征提取与识别[J]. 姚鸿勋,吕雅娟,高文. 电子学报. 2002(02)
[7]用于口型识别的实时唇定位方法[J]. 姚鸿勋,高文,李静梅,吕雅娟,王瑞. 软件学报. 2000(08)
[8]基于彩色图像的色系坐标变换的面部定位与跟踪法[J]. 姚鸿勋,刘明宝,高文,范旭彤,张洪明,吕雅娟. 计算机学报. 2000(02)
[9]汉语听觉视觉双模态数据库CAVSR1.0[J]. 徐彦君,杜利民,李国强,张欣,周治. 声学学报. 2000(01)
博士论文
[1]唇读识别中若干问题的研究[D]. 张泽梁.吉林大学 2012
硕士论文
[1]基于深度学习的中文唇语识别研究[D]. 蔡微微.华侨大学 2019
[2]基于隐马尔可夫模型的唇语识别方法研究[D]. 蔡瀛.北方工业大学 2018
[3]基于深度学习的唇语识别应用的研究与实现[D]. 杨帆.电子科技大学 2018
[4]基于Kinect三维视觉的实时唇读技术研究[D]. 岳帅.天津大学 2017
[5]唇读系统关键技术的研究[D]. 焦晓晖.哈尔滨工业大学 2015
本文编号:3115543
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3115543.html