基于3D CNN和注意力机制的手语识别方法研究
发布时间:2021-04-09 01:06
视频级的手语识别作为计算机视觉研究领域中的热点问题之一,被广泛关注。手语识别是一项高难度的挑战性课题,涉及计算机视觉、模式识别、视频采集和处理以及自然语言处理等多个研究领域。手语识别通过将采集到的手语视频数据进行处理,再翻译成文字或语音,促进听障人群和健听人之间的交流,对于维护社会和谐发展具有重要的意义。近年来深度学习技术的发展推动了手语识别领域的研究,但由于手语行为本身的灵活性和细节性以及较强的时序性要求,手语识别的精度仍然有待提高。本文通过对手语行为进行深入的分析,提出基于三维卷积网络和注意力机制的手语识别方法,并在手语数据集上进行了评估和验证,其主要研究内容和贡献如下:(1)针对手语识别的时序性要求以及在可区分性特征提取方面的困难,提出了基于三维残差卷积神经网络的手语孤立词识别方法,借助于三维卷积网络强大的自主学习能力,避免了人工设计特征,实现自适应学习。以手语RGB视频流作为输入,利用滑动窗口对视频流进行分段,通过三维卷积网络同时捕获时空特征,实现其手语分类,并验证了本方法的有效性。(2)针对手语识别过程中存在的细节复杂性和手语动作变化的不确定性,本文依据人眼视觉注意力的特点,...
【文章来源】:青岛科技大学山东省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
基于线性可分的SVM示意图
青岛科技大学研究生学位论文13图2-2利用核函数解决线性不可分的SVM示意图Fig.2-2SVMdiagrambyKernelfunctiontosolvethelinearindivisible核函数主要有线性核函数、多项式核函数以及高斯核函数等,其中最为普遍的则是高斯核函数,其主要目的是将低维空间映射到高维特征空间,从而实现对原本空间线性不可分的分类问题。2.1.2基于动态规整(DTW)的识别方法动态时间规整算法是一种基于时间序列比对的识别算法,该算法最早是由Itakura[36]提出,用于语音信号识别,后来由于其高效率的识别模式,被广泛引入到手势识别、数据挖掘等相关领域,逐渐发展成为模式识别中较为普遍的一种识别算法。该算法主要是用于解决时间序列相关性的问题,其主要目的是求解规整函数的最小值,并衡量不同长度的两个序列之间的相似度,主要方法是利用时间规整函数去描述测试模板和参考模板之间的时间对应关系。动态时间规整算法的提出为时间序列应用中的多数问题提供了可能,克服了传统欧式距离方法的弊端,但在处理多时间序列时,由于其匹配模板较多,速度较慢且比较耗时。基于DTW算法的不足,后续有很多研究者进行了深入的研究,对动态规整算法进行了改进,提出了较为高效的动态时间规整算法。例如FastDTW[37]、SparseDTW[38]、LB_Keogh[39]以及LB_Improved等,以上改进的DTW算法旨在加速匹配进程,提高识别效率。动态时间规整算法是用来计算待测试样本和模板之间的距离,如图2-3所示,给定一个固定的标准模板R,RA,B,C,D,E,F向量,其中字母表示常数,再给定一个测试模板T1,2,3,4,由于两大模板的长度不同,现在需要计算出R和T之间的距离,因此并不适用于传统的距离相似性算法,如欧氏距离等。因此,
基于3DCNN和注意力机制的手语识别方法研究14基于给定的模板利用动态时间规整算法进行模板匹配相似性的度量。首先我们需要列出模板所示的矩阵,分别利用传统的距离衡量方法计算出R与T模板每个元素之间的距离,如图2-3(a)所示。然后,再找到最短匹配路径。此路径必须满足:行走代价最小和只能往上和往右走而不能往回走。(a)(b)(c)图2-3DTW算法原理示意图Fig.2-3SchematicdiagramofDTWalgorithm假定gi,j表示走到第i,j位置时的总距离,那么可以计算其值gi,j:1,,i,j1,12,,1,gijdijggijdijgijdij(2.12)其中di,j表示测试模板元素和标准模板元素之间的距离,此距离可以基于欧氏距离测量法进行计算。当路径从左往下或从下往上走时,即为截至目前为止的总距离,而当需要沿着对角线往上走时,总距离为2倍的距离代价。根据上式便可以得到图2-3中(b)所示,其中每个元素右上角的数字即为gi,j的值。直到计算到右上角最顶端的元素,如上例所示,从矩阵左下角的元素走到右上角最顶端的元素的最小距离为26,从而通过计算gi,j的过程路径,可以得到图2-3中(c)所示的最终回溯路径。至此,DTW算法便执行完,以上我们不仅可以得到不同时间长度的两个模板之间的距离关系,而且还可以获得该距离的对应路径。在手语识别任务中,可以利用DTW算法将目标手语特征与训练得到的特征进行距离相关性的计算。当测试数据和标准数据样本之间计算距离时,得到的最小距离即为该对应模板的最相似的手语词汇,距离值越小,相似度越大,从而实现手语的准确识别。但在计算DTW距离时,由于所选模板的不同也会带来识别结果的误差,模板选取方式的不同(如选择其中的任意一个、取平均长度或者选
本文编号:3126612
【文章来源】:青岛科技大学山东省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
基于线性可分的SVM示意图
青岛科技大学研究生学位论文13图2-2利用核函数解决线性不可分的SVM示意图Fig.2-2SVMdiagrambyKernelfunctiontosolvethelinearindivisible核函数主要有线性核函数、多项式核函数以及高斯核函数等,其中最为普遍的则是高斯核函数,其主要目的是将低维空间映射到高维特征空间,从而实现对原本空间线性不可分的分类问题。2.1.2基于动态规整(DTW)的识别方法动态时间规整算法是一种基于时间序列比对的识别算法,该算法最早是由Itakura[36]提出,用于语音信号识别,后来由于其高效率的识别模式,被广泛引入到手势识别、数据挖掘等相关领域,逐渐发展成为模式识别中较为普遍的一种识别算法。该算法主要是用于解决时间序列相关性的问题,其主要目的是求解规整函数的最小值,并衡量不同长度的两个序列之间的相似度,主要方法是利用时间规整函数去描述测试模板和参考模板之间的时间对应关系。动态时间规整算法的提出为时间序列应用中的多数问题提供了可能,克服了传统欧式距离方法的弊端,但在处理多时间序列时,由于其匹配模板较多,速度较慢且比较耗时。基于DTW算法的不足,后续有很多研究者进行了深入的研究,对动态规整算法进行了改进,提出了较为高效的动态时间规整算法。例如FastDTW[37]、SparseDTW[38]、LB_Keogh[39]以及LB_Improved等,以上改进的DTW算法旨在加速匹配进程,提高识别效率。动态时间规整算法是用来计算待测试样本和模板之间的距离,如图2-3所示,给定一个固定的标准模板R,RA,B,C,D,E,F向量,其中字母表示常数,再给定一个测试模板T1,2,3,4,由于两大模板的长度不同,现在需要计算出R和T之间的距离,因此并不适用于传统的距离相似性算法,如欧氏距离等。因此,
基于3DCNN和注意力机制的手语识别方法研究14基于给定的模板利用动态时间规整算法进行模板匹配相似性的度量。首先我们需要列出模板所示的矩阵,分别利用传统的距离衡量方法计算出R与T模板每个元素之间的距离,如图2-3(a)所示。然后,再找到最短匹配路径。此路径必须满足:行走代价最小和只能往上和往右走而不能往回走。(a)(b)(c)图2-3DTW算法原理示意图Fig.2-3SchematicdiagramofDTWalgorithm假定gi,j表示走到第i,j位置时的总距离,那么可以计算其值gi,j:1,,i,j1,12,,1,gijdijggijdijgijdij(2.12)其中di,j表示测试模板元素和标准模板元素之间的距离,此距离可以基于欧氏距离测量法进行计算。当路径从左往下或从下往上走时,即为截至目前为止的总距离,而当需要沿着对角线往上走时,总距离为2倍的距离代价。根据上式便可以得到图2-3中(b)所示,其中每个元素右上角的数字即为gi,j的值。直到计算到右上角最顶端的元素,如上例所示,从矩阵左下角的元素走到右上角最顶端的元素的最小距离为26,从而通过计算gi,j的过程路径,可以得到图2-3中(c)所示的最终回溯路径。至此,DTW算法便执行完,以上我们不仅可以得到不同时间长度的两个模板之间的距离关系,而且还可以获得该距离的对应路径。在手语识别任务中,可以利用DTW算法将目标手语特征与训练得到的特征进行距离相关性的计算。当测试数据和标准数据样本之间计算距离时,得到的最小距离即为该对应模板的最相似的手语词汇,距离值越小,相似度越大,从而实现手语的准确识别。但在计算DTW距离时,由于所选模板的不同也会带来识别结果的误差,模板选取方式的不同(如选择其中的任意一个、取平均长度或者选
本文编号:3126612
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3126612.html