基于视觉的人体动作识别研究

发布时间：2017-12-25 22:36

本文关键词：基于视觉的人体动作识别研究　出处：《哈尔滨工业大学》2017年博士论文　论文类型：学位论文

【摘要】：赋予机器人以类似于人类的视觉能力是实现机器人与人非接触式智能交互的重要保障。在视觉人机交互中,利用人体动作是最直接的渠道,也是最有效的手段。同时,随着服务机器人智能化需求的不断增长以及图像处理技术、人工智能技术和机器人技术的快速发展,基于机器人视觉的动作识别逐渐成为近年的研究热点。然而,由于动作信号的三维复杂性,在复杂视场环境下实现高效稳定的动作识别仍然是一项极具挑战的任务。基于视觉的动作识别研究中的关键问题是提取有效的视觉信号对动作进行时空表征,进而结合模式识别技术完成表征的分类。针对动作时空表征这一研究难点,本文分别从底层特征提取、中层特征描述和高层时空特征表达三个层面对动作表征方法进行了深入研究,在此基础上,通过监督学习策略实现了动作的识别。总体来说,本文研究内容主要包含以下方面:分析人体动作过程中的运动细节是动作识别研究中的难点。针对运动分析容易受到光照和随机噪声干扰的问题,提出运动能量流算法,对动作在时空中的变化规律进行准确分析。运动能量流首先构建运动能量地图作为底层特征,以减小光照变化的影响。同时,进一步提出能量不变性假设和能量平滑性假设,并通过对其约束的拉格朗日方程求解得到运动能量流算子作为中层特征描述。之后,一方面直接利用运动能量流分析运动过程的变化;另一方面将运动能量流算子融入到词袋模型中形成高层时空特征表达,进而实现动作的识别。研究动作在局部时空中的特征关系及表征方法是动作识别研究中最重要的问题之一。针对动作识别中局部特征表征精度不高的问题,提出梯度特征转换算法,对动作的局部特征进行表征,以实现动作的检测和识别。梯度特征转换方法提取了空间梯度特征作为底层特征,然后利用前/后向差分和二维投影统计方法对底层特征进行中层描述,并融入动作局部时空关系特征,提高了动作表征的精度。之后,一方面利用阈值法对动作的投影进行判别,实现动作检测;另一方面利用基于数据编码的模板对中层特征进行高层时空表征,进而实现动作的识别。利用一个全局的时空表征模板对动作进行表达是实现高效动作识别的一个有效手段。针对动作识别中全局表征模板鲁棒性较差的问题,提出图像势能差分模板算法,对动作全局特征进行表征,以实现动作识别。图像势能差分模板提取动作的图像势能地图作为底层特征,并分别构建归一化投影直方图和运动动能速率算子对底层特征进行中层特征描述,实现动作特征的全局综合表征,具有更稳定的全局表征效率。之后,利用融合和主成分分析策略对中层特征进行高层时空表征,进而实现动作的识别。结合深度学习框架对动作进行深度学习以实现动作识别是动作识别研究的一个重要趋势。针对现有深度学习框架对于三维动作信号学习能力的不足,提出三通道卷积神经网络深度学习算法,对动作进行高精度深度学习和识别。三通道卷积神经网络深度学习方法将动作图像、局部光流特征图像和全局差分模板特征图像作为底层特征,以获取更全面有效的深度学习特征;在此基础上,构建一个包含5个卷积层、3个池化层和两个全连接层的卷积神经网络框架对底层特征进行深度特征提取,得到中层特征描述算子;之后,将中层特征描述算子看作局部的动作表征算子,提出一种soft-VLAD算法对局部算子进行高层时空特征表达,进而实现动作的识别。综上所述,本文基于局部特征、全局模板和深度学习框架对动作特征的提取和时空表征进行了探索,提出了有效可行的动作识别方法。此外,在目前流行的公共动作数据库中对提出的各种方法进行了实验验证,实验结果证明了方法的有效性、高效性和可靠性。同时,设计了面向应用的动作识别软件系统,并在一定的应用场景中对涉及和提出各种算法的实用性能进行了分析。
【学位授予单位】：哈尔滨工业大学
【学位级别】：博士
【学位授予年份】：2017
【分类号】：TP391.41;TP242

【参考文献】