深度学习驱动的基于智能手表的手语翻译系统
发布时间:2021-07-08 14:18
手语是听力及语言障碍人群广泛使用的功能全面,结构复杂的交流语言。而普通人群对手语缺乏了解,这导致听力及语言障碍群体与外部群体群在巨大的沟通障碍。现有手语研究受限于感知设备、系统价格、识别精度、计算时间和电量消耗等方面而无法提供实时的,可靠的、低成本的、便携且适应日常使用场景的手语识别服务。考虑到当前以智能手表为代表的智能可穿戴设备的计算能力、感知能力大大提升,出货量快速增长的同时价格越来越低。本文提出并实现了一种基于智能手表的深度学习驱动的手语识别系统。该系统包括数据采集系统,离线的模型训练系统和部署在由智能手机和智能手表构成的硬件系统上的实时推断子系统。该系统的智能手表程序采集手表内置的运动传感器数据获取手语信息,智能手机端APP加载离线训练好的模型,并将手语数据翻译为文本,再使用TTS(文本-语音转换)系统转换为语音。本文首先采集了手势数据集,手势识别模型在该数据集上平均识别率达到96%%,可以证明佩戴在手腕的智能手表可以感知足够的手指以及手形的变化信息用以分类。本文创建了包含103个单词,73个常用语句,11680个语句样本的大规模手语数据集。本文提出了一系列针对手语感知数据的预...
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
手语字母
语识别系统是可行的。??尽管每个手语单词都有自己的特点,但存在一些手势的大部分轨迹非常相??似,只是在动作的结束部分有所区别。例如图2.2所示,单词WHAT与WANT的??开始的动作轨迹相同,只在最后手掌的运动方向有区别。由于基于传统的单向循??环神经网络只单向地基于数据序列中过去的数据来对当前信号进行推理,对于??这种“前缀”相同的手语动作的识别系统是一种挑战。因此需要一种神经网络结??构能够根据整个手语动作轨迹来进行手语翻译。??此外,为正确地表达手语,在美式手语系统中存在一些非手部符号,需要使??用多种面部表情[38,41]。例如,手语单词“NOT-YET”与“LATE”需要使用非手??部符号来辨识,因为这两个单词无论手形、动作还是手部位置完全相同。在此项??基于智能手表的手语翻译系统研宄中,暂时未考虑非手部符号的识别,而将其作??为开放问题留作下一步的研宄。??2.1.2.句子级别的手语??Grosjean等分析了在连续做手语交流时的停顿,发现一段话结束后存在??一个标志性的长停顿
2.2.1.双向?LSTM??上述RNN网络只包含一个隐藏层,且只能挖掘单向的上下文信息,所以用单向RNN进行推断时,在任意时刻只能根据过去的信息来推断输出结果。在手语识别的场景中,因为一些手语单词具有非常相似的起手动作,单向神经络无法有效挖掘全部传感数据的上下文依赖关系。为应对这种挑战,本文提出用双向LSTM?(Bidirectional?LSTM,B-LSTM)来作为构建本系统神经网络模的基本单元。如图2.4所示,双向LSTM网络的结构包含两个独立的循环神经网??络隐藏层;前向隐藏层和后向隐藏层。经过训练,该网络模型在可以使用双向上下文信息进行推理,因此可以更好地处理复杂时间序列数据。??2.2.2.?SRU??
【参考文献】:
期刊论文
[1]第二次全国残疾人抽样调查最新数据公报[J]. 薛静. 中国听力语言康复科学. 2007(01)
本文编号:3271734
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
手语字母
语识别系统是可行的。??尽管每个手语单词都有自己的特点,但存在一些手势的大部分轨迹非常相??似,只是在动作的结束部分有所区别。例如图2.2所示,单词WHAT与WANT的??开始的动作轨迹相同,只在最后手掌的运动方向有区别。由于基于传统的单向循??环神经网络只单向地基于数据序列中过去的数据来对当前信号进行推理,对于??这种“前缀”相同的手语动作的识别系统是一种挑战。因此需要一种神经网络结??构能够根据整个手语动作轨迹来进行手语翻译。??此外,为正确地表达手语,在美式手语系统中存在一些非手部符号,需要使??用多种面部表情[38,41]。例如,手语单词“NOT-YET”与“LATE”需要使用非手??部符号来辨识,因为这两个单词无论手形、动作还是手部位置完全相同。在此项??基于智能手表的手语翻译系统研宄中,暂时未考虑非手部符号的识别,而将其作??为开放问题留作下一步的研宄。??2.1.2.句子级别的手语??Grosjean等分析了在连续做手语交流时的停顿,发现一段话结束后存在??一个标志性的长停顿
2.2.1.双向?LSTM??上述RNN网络只包含一个隐藏层,且只能挖掘单向的上下文信息,所以用单向RNN进行推断时,在任意时刻只能根据过去的信息来推断输出结果。在手语识别的场景中,因为一些手语单词具有非常相似的起手动作,单向神经络无法有效挖掘全部传感数据的上下文依赖关系。为应对这种挑战,本文提出用双向LSTM?(Bidirectional?LSTM,B-LSTM)来作为构建本系统神经网络模的基本单元。如图2.4所示,双向LSTM网络的结构包含两个独立的循环神经网??络隐藏层;前向隐藏层和后向隐藏层。经过训练,该网络模型在可以使用双向上下文信息进行推理,因此可以更好地处理复杂时间序列数据。??2.2.2.?SRU??
【参考文献】:
期刊论文
[1]第二次全国残疾人抽样调查最新数据公报[J]. 薛静. 中国听力语言康复科学. 2007(01)
本文编号:3271734
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3271734.html