面向虚拟实验的手势与语音融合算法
发布时间:2021-01-21 04:51
虚拟实验系统利用虚拟现实技术和可视化技术通过对相关理论知识、操作场景的可视化表达,避免了真实操作所带来的危险;降低了实验成本;实现了实验过程的“无人值守”。人机交互是虚拟实验系统各项功能的基本保障,然而当前的虚拟实验系统交互设计往往以仿真和功能为中心,系统不能感知用户意图也无法主动协助和指导用户完成交互任务,忽视了人的交互体验。本文针对现有的两种自然交互方式手势交互和语音交互以及多态融合方法进行深入研究,旨在为虚拟实验系统建立一种自然和谐的人机交互模式,提高虚拟实验系统协助人完成交互任务的能力,同时降低人在交互过程中的操作负荷和认知负荷。本文的主要目标是探究多模态融合交互的实现机理,通过构建手势与语音融合交互算法框架,实现对用户意图的推理,提高虚拟实验系统的智能性。并提出一种虚实融合的多模态智能显微镜,通过设计智能显微镜硬件结构与传感器,使智能显微镜能够给予用户真实的操作感,同时还可以感知用户操作意图,凸显多模态自然交互的优势。论文的主要创新点为以下三个方面:(1)大多数的虚拟实验系统无法感知用户的交互意图,本文面向虚拟实验,提出了对人的意图进行理解的多模态融合框架及其关键算法,为多模...
【文章来源】:济南大学山东省
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
Kinect结构
面向虚拟实验的手势与语音融合算法12在数据获取方面Kinect接口提供了6种数据源包括:彩色图像(ColorFrameSource)、红外图像(InfraredFrameSource)、深度图像(DepthFrameSource)、人体索引图像(BodyIndexFrameSource)、人体骨架数据帧(BodyFrameSource)以及声源数据。本文主要使用彩色图像、深度图像和人体骨架数据帧3中数据源,如图2.2所示。图2.2源数据图像通过这3中数据源可以获得如下信息:(1)每个像素为16-bit的深度图像,该数据表示深度摄像头到该物体的距离;(2)摄像头视角范围内每个人的骨骼数据帧,数据帧是人体25个关节点集合,每个帧包含关节点3D位置和方向,Kinect最多能够获取6个人体的骨骼数据郑由于本文只需要手势图像,因此可以通过Kinect直接获取手掌关节点的位置信息作为手势追踪的中心用来分割手势图像。我们只保留与人手关节点在同一深度范围内的深度图像信息,此时能够得到除手势区域外其他区域为黑色的图像,然后利用包围盒算法[73]得到分割后的手势深度图像,如图2.3所示。图2.3分割后的手势深度图像2.1.1手势图像的采集现有的基于机器视觉的手势数据库大多都是基于Kinect所采集的[56],然而并不能直接作为本文手势识别的训练样本,主要有以下两个原因:一是采集样本的多样性不足,有的数据集只采集了一两个人数据,虽然样本数量足够但多样性不足,在实际的识别过程中识别效果并不好;二是没有针对虚拟实验这一规定情境进行数据采集,而且手势的
面向虚拟实验的手势与语音融合算法12在数据获取方面Kinect接口提供了6种数据源包括:彩色图像(ColorFrameSource)、红外图像(InfraredFrameSource)、深度图像(DepthFrameSource)、人体索引图像(BodyIndexFrameSource)、人体骨架数据帧(BodyFrameSource)以及声源数据。本文主要使用彩色图像、深度图像和人体骨架数据帧3中数据源,如图2.2所示。图2.2源数据图像通过这3中数据源可以获得如下信息:(1)每个像素为16-bit的深度图像,该数据表示深度摄像头到该物体的距离;(2)摄像头视角范围内每个人的骨骼数据帧,数据帧是人体25个关节点集合,每个帧包含关节点3D位置和方向,Kinect最多能够获取6个人体的骨骼数据郑由于本文只需要手势图像,因此可以通过Kinect直接获取手掌关节点的位置信息作为手势追踪的中心用来分割手势图像。我们只保留与人手关节点在同一深度范围内的深度图像信息,此时能够得到除手势区域外其他区域为黑色的图像,然后利用包围盒算法[73]得到分割后的手势深度图像,如图2.3所示。图2.3分割后的手势深度图像2.1.1手势图像的采集现有的基于机器视觉的手势数据库大多都是基于Kinect所采集的[56],然而并不能直接作为本文手势识别的训练样本,主要有以下两个原因:一是采集样本的多样性不足,有的数据集只采集了一两个人数据,虽然样本数量足够但多样性不足,在实际的识别过程中识别效果并不好;二是没有针对虚拟实验这一规定情境进行数据采集,而且手势的
本文编号:2990491
【文章来源】:济南大学山东省
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
Kinect结构
面向虚拟实验的手势与语音融合算法12在数据获取方面Kinect接口提供了6种数据源包括:彩色图像(ColorFrameSource)、红外图像(InfraredFrameSource)、深度图像(DepthFrameSource)、人体索引图像(BodyIndexFrameSource)、人体骨架数据帧(BodyFrameSource)以及声源数据。本文主要使用彩色图像、深度图像和人体骨架数据帧3中数据源,如图2.2所示。图2.2源数据图像通过这3中数据源可以获得如下信息:(1)每个像素为16-bit的深度图像,该数据表示深度摄像头到该物体的距离;(2)摄像头视角范围内每个人的骨骼数据帧,数据帧是人体25个关节点集合,每个帧包含关节点3D位置和方向,Kinect最多能够获取6个人体的骨骼数据郑由于本文只需要手势图像,因此可以通过Kinect直接获取手掌关节点的位置信息作为手势追踪的中心用来分割手势图像。我们只保留与人手关节点在同一深度范围内的深度图像信息,此时能够得到除手势区域外其他区域为黑色的图像,然后利用包围盒算法[73]得到分割后的手势深度图像,如图2.3所示。图2.3分割后的手势深度图像2.1.1手势图像的采集现有的基于机器视觉的手势数据库大多都是基于Kinect所采集的[56],然而并不能直接作为本文手势识别的训练样本,主要有以下两个原因:一是采集样本的多样性不足,有的数据集只采集了一两个人数据,虽然样本数量足够但多样性不足,在实际的识别过程中识别效果并不好;二是没有针对虚拟实验这一规定情境进行数据采集,而且手势的
面向虚拟实验的手势与语音融合算法12在数据获取方面Kinect接口提供了6种数据源包括:彩色图像(ColorFrameSource)、红外图像(InfraredFrameSource)、深度图像(DepthFrameSource)、人体索引图像(BodyIndexFrameSource)、人体骨架数据帧(BodyFrameSource)以及声源数据。本文主要使用彩色图像、深度图像和人体骨架数据帧3中数据源,如图2.2所示。图2.2源数据图像通过这3中数据源可以获得如下信息:(1)每个像素为16-bit的深度图像,该数据表示深度摄像头到该物体的距离;(2)摄像头视角范围内每个人的骨骼数据帧,数据帧是人体25个关节点集合,每个帧包含关节点3D位置和方向,Kinect最多能够获取6个人体的骨骼数据郑由于本文只需要手势图像,因此可以通过Kinect直接获取手掌关节点的位置信息作为手势追踪的中心用来分割手势图像。我们只保留与人手关节点在同一深度范围内的深度图像信息,此时能够得到除手势区域外其他区域为黑色的图像,然后利用包围盒算法[73]得到分割后的手势深度图像,如图2.3所示。图2.3分割后的手势深度图像2.1.1手势图像的采集现有的基于机器视觉的手势数据库大多都是基于Kinect所采集的[56],然而并不能直接作为本文手势识别的训练样本,主要有以下两个原因:一是采集样本的多样性不足,有的数据集只采集了一两个人数据,虽然样本数量足够但多样性不足,在实际的识别过程中识别效果并不好;二是没有针对虚拟实验这一规定情境进行数据采集,而且手势的
本文编号:2990491
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2990491.html