基于深度学习的视频手语识别研究
【学位单位】:中国科学技术大学
【学位级别】:博士
【学位年份】:2020
【中图分类】:TP391.41;TP18
【部分图文】:
?等多模态表征?|? ̄基于多模态特征的孤立词识别?i??|???:?|建模识別方法|?;??繁認f??認篇產P雜蓮S?||=>丨基于空洞卷积和迭代优化的连续语句识别;????I??和优化??I?I?[ ̄基于迭代对齐网络的连续语句识别 ̄?I??|?V?v?I??1?r?\?|??|???;?J?|增广学习方法|??I深度當|爲III语数基于跨模态数据增广的手语识别?I??I??I?;?基干多语言协同的手语识别??、、、?/?*?V?V?/??图1.1本文研宄内容总览。??结合上述创新点,本文具体章节安排如下:??第2章介绍了基于多模态手语特征表达的孤立词识别方法。该方法主要由两??个支路构成,分别是用于表征手部形状和手部运动轨迹。手部运动轨迹特征通过??稠密的形状上下文特征矩阵表达,然后使用卷积网络提取更为鲁棒的轨迹特征??描述;手型特征由三维卷积神经网络提龋最后将两种不同类型的特征进行融??合,使用支持向量机进行分类。??第3章介绍基于空洞卷积网络和迭代优化的连续手语识别方法。该方法使用??三维残差网络用于视觉特征的提龋此后,使用栈式空洞卷积网络和连接时序??分类学习视觉特征和文本语句之间的映射。本章算法设计了一种迭代优化策略。??首先使用连接时序分类对网络进行端到端训练,收敛后提取视频和文本的伪对??齐标签,使用伪对齐标签对3D-ReSNet特征提取器参数进行微调,以获得更具表??征能力的视觉特征表达,迭代地进行上述步骤直至网络达到收敛状态。??第4章介绍基于迭代对齐网络的连续手语识别方法框架。该框架由两个部分??组成,分别是用于特征学习的三维残差网络,和联合了连接时序分
?第2章基于多模态特征的孤立词识别???息,以及手语演示者的RGB视频信息。基于这些数据,本节介绍用于表征运动??轨迹和手型的特征提取方法以及基于支持向量机的识别方法。??2.3.1框架概述??基于多模态特征的孤立词手语识别方法如图2.1所示。在该方法中,分别提??取基于骨架点轨迹的特征和基于手部形状视频的特征进行识别。图2.1(a)展示了??从骨架点轨迹提取特征的过程。在手语演示者执行手语动作时,手部和肘部关??节点在空间中形成一条三维轨迹。对于该轨迹上每一时刻的位置,首先使用形??状上下文提取当前点的特征表达,然后整合所有时刻的特征形成一个特征矩阵。??此后,将该形状上下文特征矩阵作为卷积神经网络的输入,使用深度神经网络对??其进行特征表达。在实验中,使用LeNett115]的全连接层相应作为特征用于后续??的识别任务。手型RGB视频的特征抽取过程如图2.1(b)所示。Kinect能够追踪??手语演示者的骨架信息,通过Kinect开发套件提供的映射函数能够轻松定位手??部在视频中的具体位置,然后使用合适大小的矩形包围框将手部区域分割出来,??这样能够得到一个只含有手部信息的低分辨率视频。这些手部运动视频很好地??去除了背景的干扰,使用三维卷积神经网络能够手型进行很好的表达。将这两种??特征进行融合,之后使用支持向量机进行分类,以得到最终的手语识别结果。??魯._G?丨-!?7]?1?fRec〇gnition、??隱f帽??'、RGB?Hand?Region?(b>?3D?CNN?Feature?/??图2.1方法框架图。(a)使用形状上下文提取轨迹的特征矩阵,然后利用LeNet对特征矩??阵进行
、目标检测、目标跟踪等。受此启发,本章算法??将得到的稠密形状上下文特征矩阵作为卷积神经网络的输入,用于提取更加鲁??棒的和具有表征性的特诊表达。在该方法中,采用LeNet全连接层的响应作为轨??迹的特征表达。?????,?I?\???*?? ̄^?!?/?、.?z.? ̄ ̄**?/??十'入二?I/'?/?:??(a)??left?hand?right?hand?left?elbow?right?elbow????pn??nm」??(c)?(b)??图2.2轨迹形状上下文特征矩阵构造流程图。(a)使用¥1算法进行重采样;(b)对每个采??样点提取形状上下文;U)构造稠密形状上下文特征矩阵。??2.3.3手型表征??1.手部区域提取??Kinect提供了关节点的位置坐标信息,通过Kinect的映射函数能够获得双??手在RGB视频中的具体位置,从而能够得到手的大致区域。对视频中的每一帧,??使用一个70?X?70的正方形框将手部区域的图像进行切分和提取,使得手部关节??点位于方形框中心。然后将切分出的双手区域进行拼接,得到仅包含双手信息的??低分辨率视频。这样,手语演示者身体的其他运动信息能够被有效的分离去除,??避免干扰,使得算法能够专注于对手型的建模。图2.3a是手型提取示意图,部分??提取的结果如图2.3b所示。??2.基于3D?CNN的手型表征??三维卷积神经网络被广泛用于视频中时空信息的提取,视频中的运动信息??能够被三维卷积核较好的表征。本节使用三维卷积神经网络对手语演示者的手??型视频进行分析,借鉴AlexNet的网络结构,使用三维卷积核提取手部运动信息。??网络结构由5
【相似文献】
相关期刊论文 前10条
1 ;唐帅:中国唯一的手语律师[J];廉政瞭望(上半月);2018年04期
2 叶小荷;;80后小伙儿唐帅:中国唯一的手语律师[J];现代青年;2018年08期
3 李蕊娟;;80后唐帅:中国唯一的手语律师[J];黄河.黄土.黄种人;2018年13期
4 传云;;唐帅:中国唯一“手语律师”[J];恋爱婚姻家庭(上半月);2018年08期
5 吴晓波;;浅谈上海手语的象似性[J];科学咨询(教育科研);2019年12期
6 刘永萍;;从聋人手语预设的经济性看聋人手语的“丢三落四”现象[J];现代特殊教育;2019年20期
7 赵菲;韩梅;;新媒体环境拓宽国家通用手语推广教学新路径[J];绥化学院学报;2020年01期
8 徐子淇;贾兆娜;;基于国家通用手语推广的聋教育思考[J];绥化学院学报;2020年01期
9 赵永刚;王晓霞;;手语音节与语素结构的类型学考察[J];外语教学;2020年01期
10 刘永萍;;语用学视角下的国家通用手语推广[J];现代特殊教育;2020年08期
相关博士学位论文 前10条
1 蒲俊福;基于深度学习的视频手语识别研究[D];中国科学技术大学;2020年
2 杨全;基于表观建模的中国手语识别技术研究[D];西北大学;2013年
3 衣玉敏;上海手语的语音调查报告[D];复旦大学;2008年
4 王骐;基于虚拟立体视约束的视角无关手语识别研究[D];哈尔滨工业大学;2008年
5 倪训博;基于手语语言学与人体运动学的手语识别研究[D];哈尔滨工业大学;2009年
6 马继勇;手语理解的统计模型研究[D];中国科学院研究生院(计算技术研究所);2001年
7 杨峰;上海手语音节结构分析[D];华东师范大学;2016年
8 陈晓雷;能量受限条件下的手语视频编码方法研究[D];兰州理工大学;2014年
9 周宇;中国手语识别中自适应问题的研究[D];哈尔滨工业大学;2010年
10 王春立;面向大词汇量的连续中国手语识别系统的研究与实现[D];大连理工大学;2003年
相关硕士学位论文 前10条
1 毛赛群;西安聋人自然手语句法研究[D];陕西师范大学;2015年
2 马运怡;上海手语的手型音位研究[D];华东师范大学;2014年
3 漆春;中国手语的动作比较研究[D];大连理工大学;2014年
4 王森;语音文本驱动的中国手语动画合成[D];北京工业大学;2013年
5 陈新伟;基于表层语义分析的自然手语动作序列生成的研究[D];湘潭大学;2009年
6 宋桂霞;手语数据分析及生成技术[D];哈尔滨工业大学;2007年
7 王伟;论手语译员的角色[D];厦门大学;2009年
8 骆维维;《中国手语》手形研究[D];北京师范大学;2008年
9 金力;基于移动互联网的手语翻译器的设计与实现[D];江苏科技大学;2017年
10 吴晓波;上海手语否定形式调查报告[D];复旦大学;2013年
本文编号:2893080
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2893080.html