当前位置:主页 > 科技论文 > 自动化论文 >

融合生理信息的多模态唇读技术研究

发布时间:2021-01-23 21:22
  作为人与计算机或者其他设备沟通的桥梁,人机交互技术在“智能化”科技和需求的双轮驱动下,经历了单纯从鼠标、键盘的接触式交互到多模态信息非接触式交互的重大变革。作为重要的非接触式交互方式,唇读技术不仅突破了应用场景的限制,在噪声环境下辅助语音识别,且随着三维空间体感传感器的出现,唇读技术有了更广阔的发展前景。对唇部运动信息的全面提取和有效表征直接关系着语义信息的准确表达,唇动特征提取的完备性和代表性直接影响着语义内容的识别以及语义情感的判断。对于唇动特征提取,当前所存在的共同的难点在于:对于人们说话方式的巨大差异,所采用的特征提取方法无法作为一种通用的方法来全面有效地表征唇动信息。为此,本论文旨在研究融合面部肌肉生理信息的多模态唇动识别,研究内容主要包括基于Kinect的多模态数据采集、预处理、面部肌肉模型建立、肌肉模型映射、特征提取和基于DenseNet的训练识别。首先,基于Kinect V2.0,采集了话者唇动过程中的多模态信息,包括音频、彩色图像和深度数据。数据采集完成后,进行了一系列的数据预处理操作。对图像数据,分别进行了人脸检测、唇部定位和数据扩张。对深度数据,纠正了话者录制过程... 

【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校

【文章页数】:58 页

【学位级别】:硕士

【部分图文】:

融合生理信息的多模态唇读技术研究


数据录制环境图

彩色图像,音频,可视,图像


天津大学硕士学位论文12图2-3音频标注可视化2.2.2图像数据通过Kinect捕捉的彩色图像分辨率为1920×1080,帧率为30fps。在进行特征提取之前,需要先确定ROI,即对唇区进行定位。唇区定位是将包含唇部区域的图像以矩形框圈出来,以此来去除图像中的冗余信息。唇区定位是唇读系统中一个不可或缺的环节,定位是否准确将直接关系着后续特征提取的代表性进而影响实验最终的准确性。直接从复杂背景中抽娶分割出唇部区域难度较大,因此本论文首先对图像进行人脸检测,然后从人脸范围内定位唇部区域。人脸检测是指对动态或静止的图像进行检测,然后将图像分成两部分。人脸区域和非人脸区域。本文基于OpenCV视觉库(OpenSourceComputerVisionLibrary)的级联分类器对图像中的人脸进行检测。具体的流程包括四个步骤:1)加载待检测图像:首先利用opencv.imread()函数加载待检测图像,并判断待检测的图像格式是否符合要求,防止错误的文件格式引起程序崩溃。2)图像预处理:利用OpenCV视觉库中的颜色空间转换函数,对符合格式要求的待检测图像进行灰度化处理和直方图均衡化,使图像中可能存在的人脸特征突出。3)加载本地训练好的分类器:利用CascadeClassifier()函数加载本地分类器haarcascade_frontalface_alt.xml。4)检测人脸区域:利用detectMultiScale()函数,确定图像中的haar特征,并利用分类器对待检测图像进行快速高效的人脸定位。5)根据检测结果输出人脸区域:如果待检测图像中包含人脸区域,detectMultiScale()函数将会返回包含人脸区域矩形框的坐标,根据该坐标对称向外扩展,可以得到包含整个头部区域的图像信息。通过OpenCV确定彩色图像中的人脸区域后,利用Dlib官方训练好的模型

唇部,角度,比例


天津大学硕士学位论文24k代表某个孤立词样本的第k帧,一个音节发音过程中的N帧图像的形状特征构成了该音节的形状特征:11111[,,,,]TTTTshapeshapeshapekshapeNFFFF(4-2)由于不同话者的唇部形状和发音方法不同,表现为发相同音节时不同话者唇形有较大差异。因此,单纯利用唇部宽度、高度、形状受话者个体差异影响较大,为了更准确的表达不同话者说话方式的相似性,论文引入如下比例特征,2411222133121,,,,,shapekhhhhhwFhhhwww(4-3)比例特征中,各项依次表示上唇内侧高度与外侧高度的比例、下唇内侧高度与外侧高度的比例、上唇外侧与下唇外侧的比例、上唇外侧与外侧轮廓半宽度的比例、上唇内侧高度与内侧轮廓半宽度的比例、以及内外侧轮廓半宽度的比例。通过比例特征,准确的刻画了当前唇形所处状态,并且减弱了不同话者唇部生理差异对实验的影响。最终的形状特征为:22122[,,,,]TTTTshapeshapeshapekshapeNFFFF(4-4)4.1.2角度特征Yargic等人[24]以15个表示颜色的土耳其词作为语料,用Kinect录制了10个话者面部的121个面部深度特征点,其中唇部特征点有18个。基于18个面部特征点,Yargic等人提取了29个角度特征。分别利用基于曼哈顿距离和欧几里得距离的K最近邻算法,对每个角度特征进行了评估,最后确定了识别效果最好的四个角度,如图4-2所示。图4-2四个最好的唇部角度特征[24]

【参考文献】:
期刊论文
[1]基于DT-CWT和PCA的唇部特征提取方法[J]. 梁亚玲,杜明辉.  电视技术. 2011(03)

博士论文
[1]基于Kinect的主动外观模型及在表情动画上的应用[D]. 王庆祥.山东大学 2014

硕士论文
[1]视频唇部视觉特征提取与跟踪技术研究[D]. 耿松.北方工业大学 2016
[2]基于Kinect的自然人机交互系统的设计与实现[D]. 马风力.浙江大学 2016
[3]基于多元统计的口型特征提取[D]. 李倩玉.华北电力大学 2013



本文编号:2995947

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2995947.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户520e0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com