面向社会机器人的3D手势建模、识别与学习

发布时间：2020-09-22 21:32

　　社会机器人(Social Robots)未来可能重塑整个社会,而自然人机交互技术是其核心技术之一。手势交互作为一种自然的人机交互方式,被广泛应用于社会机器人交互系统之中。然而,现有的手势识别算法需求大量的高质量训练数据、模型学习过程复杂、扩展性差,难以应用于社会机器人真实应用场景。本文紧密围绕社会机器人手势交互技术,重点研究如何利用少量的有标记数据,甚至单个样本数据进行手势学习,以及如何建模融合多模态信息以提升手势识别的性能。本论文的主要工作和成果归纳如下:针对因手部是一种高自由度的链式结构使得关节点数据标注非常困难,从而造成现有的基于有监督学习的方法学习成本极高的问题,本文提出了一种基于多视图投影的半监督学习方法。该方法将无标记三维手势点云图投影至三个坐标平面,利用自编码器学习投影视图之间的隐空间编码,作为手势姿态的隐式表征,进而利用有标签数据学习隐式表征到手部姿态的直接映射。实验表明,该方法不仅有效地减少了对标记数据的依赖,且在手姿态估计数据库上,将最好结果从19.60毫米提升到了17.04毫米。针对现有一次学习手势识别算法存在以下缺点:1)常用的运动特征只关注运动部分信息,造成手势描述的不连续,丢失了手势保持时期的信息;2)特征提取未关注于有效的手部区域,造成身体摆动等无效运动的干扰;3)识别算法丢失了特征的时空位置信息,本文提出了一种简单有效的基于上下文信息的显著性特征提取方法。该方法能够完整地保留手势的动静态信息,从而获得更丰富、更鲁棒的特征表达。其次,本文提出了一种基于特征匹配的动态规划算法,该算法利用特征匹配的稠密性及准确性度量两帧的相似性,而后采用动态规划算法求取两手势序列最优匹配距离。该算法保证了手势描述的连续性、准确性,并且充分利用了特征的时空位置信息。本文提出的算法在无需复杂的特征设计的情况下,得到了和当前基于复杂特征设计的算法相当的效果。针对基于深度学习的多模态手势识别算法需要谨慎的网络结构设计,繁琐的网络训练,且新的数据需要重新训练问题,本文提出了一种统一的多模态信息融合构架,称为VDTW(Voting based Dynamic Time Warping)。该算法通过利用三维隐形状模型建模各模态特征的时空结构信息,而后通过一致性投票将特征映射至统一的概率空间,形成对各帧时空分布的概率估计,以此构建对齐代价矩阵。此外,本文还提出一种基于概率的快速上界求取方法,能够减少不必要的动态规划计算过程,从而加速计算。这些优点使得VDTW算法能够适用于大样本多模态手势分类任务,在Chalearn IsoGD多模态手势数据库上,获得了和基于深度学习的算法相当的结果。在上述算法研究的基础上,搭建了一套社会机器人系统JIAJIA,用于验证真实场景下的手势交互效果。多位志愿者受邀参与系统测试,使用体验方面得到较高评价,其次,量化的识别结果也验证了系统的实用性。
【学位单位】：电子科技大学
【学位级别】：博士
【学位年份】：2019
【中图分类】：TP242
【部分图文】：

社会,机器人,日本,语音语调

图 1-1 日本主要社会机器人日本软银公司推出的 Pepper 机器人则更注重情感交流，它能够识别人类的语音语调，同时察觉细微的面部表情变化，通过强大的情感引擎量化评分得到人类的情绪，并在语音中加入声调的变化以及多样的动作完成蕴含情感的表达，它被

机器人,社会,美国,自闭症儿童

图 1-2 美国主要社会机器人在欧洲，NAO 机器人是一款学术界运用最广泛的机器人，它精通 19 种语言，可以与人类聊天，还会唱歌跳舞，可以用作自闭症儿童的辅助治疗手段[15]。目前，成千上万台 NAO 被几十个国家的学校所购买，通过可视化的指令编程，NAO 被

机器人,社会,欧洲

图 1-3 欧洲主要社会机器人虽然和欧美国家相比，国内在社会机器人领域起步较晚，但是也获得了很多顶尖的成果。中国香港的汉森机器人技术公司是面部表情机器人领域的领先者，著名的索菲亚机器人（Sophia）就是其核心产品之一。Sophia 采用橡胶皮肤，能够

【参考文献】