基于时空图卷积网络的手语翻译
发布时间:2022-02-19 16:00
手语翻译是一个涉及计算机视觉、自然语言处理和模式识别等多个技术领域的综合性任务,在智能场景识别、手语视频检索等领域有着极为广泛的应用前景,尤其对于聋哑群体参与正常交流有着极其重要的意义。本文研究利用图卷积网络(Graph Convolutional Network,GCN)、人体骨架图数据时空特征提取以及编码-解码网络(Encoder-Decoder Network)的序列化建模输出文本,提出基于时空图卷积网络(ST-GCN)的手语翻译方法。基于卷积神经网络的深度模型方法广泛用于诸如图片识别、视频分析等领域中的欧几里德数据处理。非欧几里德类型的人体骨架关节点数据无法被深度模型直接处理,而通常被转换为欧几里德类型的数据易导致结构信息丢失。本文在人体骨架关节点数据上直接采用时空图卷积网络进行手语动作分类识别。首先,借助姿态估计方法获取骨架关节点的位置信息;在构建骨架关节点图数据之后,采用时空图卷积网络提取时空特征;利用softmax分类器实现对视频中手语动作的分类识别。手语数据集的实验结果表明,本文方法能直接对骨架关节点数据提取时空特征并在手语动作识别任务上取得了较好的结果。手语视频中手语...
【文章来源】:南京邮电大学江苏省
【文章页数】:82 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 手语翻译
1.2.2 图卷积神经网络模型
1.3 主要研究内容和论文组织结构
1.3.1 主要研究内容
1.3.2 论文组织结构
第二章 手语翻译的基本概念及相关原理
2.1 手语动作特征提取技术
2.1.1 基于传统方法的特征提取
2.1.2 基于深度学习的特征提取
2.2 图卷积网络相关模型
2.2.1 基于谱域的图卷积
2.2.2 基于空域的图卷积
2.3 本章小结
第三章 基于时空图卷积网络的手语识别
3.1 骨架图数据
3.1.1 骨架关节点
3.1.2 手语骨架图数据
3.2 时空图卷积神经网络模型
3.2.1 时空图卷积神经网络
3.2.2 基于时空图卷积网络手语识别框架
3.3 手语识别数据集
3.3.1 数据集介绍
3.3.2 数据集预处理
3.4 实验过程与结果分析
3.4.1 实验过程
3.4.2 结果分析
3.5 本章小结
第四章 基于双流时空图卷积网络的手语翻译
4.1 双流时空图卷积神经网络
4.1.1 基于双流时空图卷积的手语翻译模型
4.1.2 双流时空图卷积神经网络
4.1.3 子图特征聚合
4.2 基于注意力机制的编码-解码翻译模型
4.2.1 编码-解码模型
4.2.2 基于注意力机制的编码-解码网络
4.3 实验过程与结果分析
4.3.1 实验过程
4.3.2 实验方案
4.3.3 结果分析
4.4 本章小结
第五章 基于残差连接时空图卷积的手语翻译
5.1 残差连接网络模型
5.1.1 深度残差网络
5.1.2 残差连接时空图卷积网络
5.2 基于Transformer的翻译模型
5.2.1 编码器网络
5.2.2 解码器网络
5.3 实验过程与结果分析
5.3.1 实验过程
5.3.2 结果分析
5.4 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
附录1 攻读硕士学位期间撰写的论文
附录2 攻读硕士学位期间申请的专利
附录3 攻读硕士学位期间参加的科研项目
致谢
【参考文献】:
期刊论文
[1]基于Kinect的手语识别及播放器设计[J]. 陈德宁,马锐军,张俊源,王晓军,董泽炯,龚立威,袁国枢. 科技风. 2020(14)
[2]基于时空注意力网络的中国手语识别[J]. 罗元,李丹,张毅. 半导体光电. 2020(03)
[3]基于深度卷积神经网络的多特征融合的手势识别[J]. 贠卫国,史其琦,王民. 液晶与显示. 2019(04)
硕士论文
[1]基于强化学习的手语视频翻译[D]. 张之昊.中国科学技术大学 2019
本文编号:3633194
【文章来源】:南京邮电大学江苏省
【文章页数】:82 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 手语翻译
1.2.2 图卷积神经网络模型
1.3 主要研究内容和论文组织结构
1.3.1 主要研究内容
1.3.2 论文组织结构
第二章 手语翻译的基本概念及相关原理
2.1 手语动作特征提取技术
2.1.1 基于传统方法的特征提取
2.1.2 基于深度学习的特征提取
2.2 图卷积网络相关模型
2.2.1 基于谱域的图卷积
2.2.2 基于空域的图卷积
2.3 本章小结
第三章 基于时空图卷积网络的手语识别
3.1 骨架图数据
3.1.1 骨架关节点
3.1.2 手语骨架图数据
3.2 时空图卷积神经网络模型
3.2.1 时空图卷积神经网络
3.2.2 基于时空图卷积网络手语识别框架
3.3 手语识别数据集
3.3.1 数据集介绍
3.3.2 数据集预处理
3.4 实验过程与结果分析
3.4.1 实验过程
3.4.2 结果分析
3.5 本章小结
第四章 基于双流时空图卷积网络的手语翻译
4.1 双流时空图卷积神经网络
4.1.1 基于双流时空图卷积的手语翻译模型
4.1.2 双流时空图卷积神经网络
4.1.3 子图特征聚合
4.2 基于注意力机制的编码-解码翻译模型
4.2.1 编码-解码模型
4.2.2 基于注意力机制的编码-解码网络
4.3 实验过程与结果分析
4.3.1 实验过程
4.3.2 实验方案
4.3.3 结果分析
4.4 本章小结
第五章 基于残差连接时空图卷积的手语翻译
5.1 残差连接网络模型
5.1.1 深度残差网络
5.1.2 残差连接时空图卷积网络
5.2 基于Transformer的翻译模型
5.2.1 编码器网络
5.2.2 解码器网络
5.3 实验过程与结果分析
5.3.1 实验过程
5.3.2 结果分析
5.4 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
附录1 攻读硕士学位期间撰写的论文
附录2 攻读硕士学位期间申请的专利
附录3 攻读硕士学位期间参加的科研项目
致谢
【参考文献】:
期刊论文
[1]基于Kinect的手语识别及播放器设计[J]. 陈德宁,马锐军,张俊源,王晓军,董泽炯,龚立威,袁国枢. 科技风. 2020(14)
[2]基于时空注意力网络的中国手语识别[J]. 罗元,李丹,张毅. 半导体光电. 2020(03)
[3]基于深度卷积神经网络的多特征融合的手势识别[J]. 贠卫国,史其琦,王民. 液晶与显示. 2019(04)
硕士论文
[1]基于强化学习的手语视频翻译[D]. 张之昊.中国科学技术大学 2019
本文编号:3633194
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3633194.html
最近更新
教材专著