基于神经网络时序建模的连续手语翻译研究
发布时间:2021-08-30 09:07
现如今,随着大数据技术的发展和计算机硬件运算速度的不断提高,人工智能与机器学习技术得以飞速发展。在计算机视觉领域,基于神经网络与深度学习的机器学习算法可以通过模拟人脑来理解图像和视频等多媒体信息。近年来,由于神经网络模型具有强大的拟合与回归学习能力,其在视频翻译问题上取得了突破性进展。连续手语视频翻译是计算机视觉领域的一个重要分支,在现实生活中有着重要的实用价值。手语是聋哑人日常生活中进行信息交流最自然的方式,连续手语视频翻译技术的发展为聋哑人的日常生活提供便利,实现听力障碍人群和正常人的自由沟通交流。手语翻译作为人机交互的一种方式,通过机器学习算法将连续手语动作翻译成对应的文字序列。手语视频自动翻译属于广义的序列到序列问题,其难点在于视频中视觉信息的识别,不仅要考虑当前时刻的图像帧信息,同时关系到连续帧之间复杂的动态变化关系。本文运用循环神经网络算法,使用编码解码结构和级联时序分类的实时翻译结构,对手语翻译问题进行时序建模。在编码解码模型中,提出时序池化操作,嵌入在翻译系统的分层编码器中,有效解决了连续视频数据的信息冗余问题,使得翻译效率和效果均得到显著提升。由于编码解码模型在长时手...
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
神经元结构示意图
图 2. 2 感知机结构Fig 2.2 Illustration of a perceptron cell神经网络经网络是目前模式识别的主流框架之一,在图像处理领域
卷积核为 3*3 的矩阵,在输入矩阵中选取与卷积核同等大小的窗口,与卷积核做内积后得到一次卷积运算的结果。卷积核在图像上按从左至右、从上之下的顺序滑动,依次做卷积,将卷积的结果按滑动的轨迹排列为二维矩阵,最终得到输入数据的二维卷积结果,也称为该卷积核输出的特征映射(feature map)。
【参考文献】:
期刊论文
[1]深度图像手势分割及HOG-SVM手势识别方法研究[J]. LE Vanbang,朱煜,NGUYEN Anhtu. 计算机应用与软件. 2016(12)
硕士论文
[1]基于隐马尔可夫模型增量学习的动态手势识别研究[D]. 胡孟.南京大学 2014
本文编号:3372492
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
神经元结构示意图
图 2. 2 感知机结构Fig 2.2 Illustration of a perceptron cell神经网络经网络是目前模式识别的主流框架之一,在图像处理领域
卷积核为 3*3 的矩阵,在输入矩阵中选取与卷积核同等大小的窗口,与卷积核做内积后得到一次卷积运算的结果。卷积核在图像上按从左至右、从上之下的顺序滑动,依次做卷积,将卷积的结果按滑动的轨迹排列为二维矩阵,最终得到输入数据的二维卷积结果,也称为该卷积核输出的特征映射(feature map)。
【参考文献】:
期刊论文
[1]深度图像手势分割及HOG-SVM手势识别方法研究[J]. LE Vanbang,朱煜,NGUYEN Anhtu. 计算机应用与软件. 2016(12)
硕士论文
[1]基于隐马尔可夫模型增量学习的动态手势识别研究[D]. 胡孟.南京大学 2014
本文编号:3372492
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3372492.html