基于深度学习的连续手语视频翻译的研究

发布时间:2022-11-11 19:35
  手语视频翻译技术是一种将手语视频翻译成文字的方法,不仅可以解决聋哑人群体和正常人交流的问题,也能打破不同国度和不同语种间的手语界限,实现不同人群的有效交流。同时,由于以深度学习为代表的人工智能技术正在快速进步,不断地向贴近大众生活的方向发展,因此基于深度学习技术的手语视频翻译研究正成为研究者争相研究的热点。本文基于时域卷积网络(Temporal Convolution Network,TCN)和双路门控单元(Bidirectional Gated Recurrent Unit,BGRU)提出了 一种双路并行的时序学习模型。该时序学习模型一方面利用TCN来捕获短时的局部相关性信息,另一方面利用BGRU来捕获长时的上下文信息,从而充分利用视频帧之间的时序信息。在将两路网络进行后端融合后,利用级联时序分类(Connectionist Temporal Classification,CTC)函数对来整个时序学习模型进行端到端的训练。该模型在德国手语天气数据集上较单一的TCN或BGRU较好值相比,降低了 0.3%的词错率,有效验证了本方法的合理性。此外,本文针对手语视频中监督信息不足(视频片段和... 

【文章页数】:59 页

【学位级别】:硕士

【文章目录】:
致谢
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 研究现状
        1.2.1 基于传统方法的手语翻译算法
        1.2.2 基于深度学习的手语翻译算法
    1.3 研究内容及组织结构
第二章 深度学习基础
    2.1 神经网络算法基础
        2.1.1 多层感知机
        2.1.2 卷积神经网络
        2.1.3 循环神经网络
    2.2 编码解码模型
        2.2.1 编解码基础结构
        2.2.2 注意力机制
    2.3 级联时序分类算法
    2.4 本章小结
第三章 基于时域卷积与双向门控单元融合的时序学习模型
    3.1 方法描述
    3.2 时域卷积学习模块
        3.2.1 时域卷积模型TCN概要
        3.2.2 基于TCN卷积的时序学习模块
    3.3 双向门控单元时序学习模块
        3.3.1 双向门控单元模块概要
        3.3.2 基于BGRU的时序学习模块
    3.4 基于双路时序得分融合的CTC优化
        3.4.1 双路时序得分融合模块
        3.4.2 CTC分类优化
    3.5 实验结果与分析
        3.5.1 实验数据集与评价指标
        3.5.2 实验参数设置
        3.5.3 网络与单路网络对比实验
        3.5.4 与其他手语翻译方法的对比
    3.6 小结
第四章 基于伪监督学习连续手语翻译
    4.1 伪监督学习简介
    4.2 模型描述
        4.2.1 3D CNN特征提取
        4.2.2 序列对齐学习
        4.2.3 伪监督学习优化策略
    4.3 实验分析
        4.3.1 实验数据集与评价指标
        4.3.2 实验参数设置
        4.3.3 模型验证
        4.3.4 与现有方法对比
    4.4 小结
第五章 总结与展望
    5.1 工作总结
    5.2 未来展望
参考文献
攻读硕士学位期间的学术活动及成果情况


【参考文献】:
期刊论文
[1]基于深度学习的手语识别综述[J]. 张淑军,张群,李辉.  电子与信息学报. 2020(04)
[2]基于深度学习的中国手语翻译[J]. 袁甜甜,胡彬,杨学,赵伟.  电视技术. 2019(02)
[3]马尔可夫及隐马尔可夫模型的应用[J]. 黄岗.  电子设计工程. 2013(17)



本文编号:3705617

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3705617.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户89e97***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com