当前位置:主页 > 科技论文 > 信息工程论文 >

基于音视频的跨模态说话人检索和识别

发布时间:2021-05-21 03:45
  基于音视频的跨模态检索和匹配是一项寻找人脸和语音之间对应关系的任务,大量认知科学方面的研究已经证实了人类拥有匹配同一人的面部信息和声音的能力,这对于创建自然的人机交互系统以及其他多媒体应用很有启发意义。针对人脸语音等带有身份信息的音视频跨模态数据,本文通过以下几个方面进行人脸语音跨模态检索和匹配实验研究:(1)提出一种基于自编码器结构的的人脸语音跨模态说话人标注方法,并引入联合一致性原则,结合带有标签信息的训练数据,构建音视频跨模态检索和匹配模型。在特征提取阶段,利用基于卷积神经网络的方法提取人脸图像特征,利用基于深度信念网络的方法提取语音数据的特征,最终在自编码器模型的输出层接入softmax回归损失,加入有监督训练策略,并针对跨模态交叉信息扩展为三种不同的模型结构。(2)提出一种基于协同注意力机制的人脸语音跨模态匹配和检索模型,为了更好的融合语音和人脸信息,在特征提取阶段,利用VGG-16和Soundnet提取人脸和语音特征。该模型学习人脸图像特征和语音特征之间的共同子空间嵌入,引入联合自注意力机制强化原始特征的相关性,并采用三重正负样本的训练方法,使共同子空间上的模态内距离较小,... 

【文章来源】:华侨大学福建省

【文章页数】:84 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 引言
    1.1 课题背景及研究意义
    1.2 人脸和语音特征提取
    1.3 跨模态检索与匹配
    1.4 基于音视频的跨模态说话人检索与匹配
    1.5 论文内容与组织结构
    1.6 本章小结
第2章 跨模态说话人识别相关方法和数据集
    2.1 深度信念网络
    2.2 卷积神经网络
        2.2.1 卷积神经网络的发展
        2.2.2 卷积神经网络的概念
    2.3 循环神经网络
        2.3.1 前馈网络与循环网络
        2.3.2 时序反向传播算法
        2.3.3 长短时记忆门
    2.4 人脸语音跨模态检索常用数据集
        2.4.1 情景剧数据集
        2.4.2 名人访谈数据集
    2.5 本章小结
第3章 结合有监督自编码器的跨音视频说话人标注
    3.1 人脸语音深度特征提取
        3.1.1 基于卷积神经网络的人脸特征提取
        3.1.2 基于深度信念网络的语音特征提取
    3.2 有监督联合一致性自编码器模型
        3.2.1 Super-Corr-NN模型
        3.2.2 Super-Corr-AE模型
        3.2.3 Super-Cross-AE模型
        3.2.4 Super-Full-AE模型
    3.3 实验结果与分析
        3.3.1 实验数据集
        3.3.2 评价标准
        3.3.3 实验结果对比与分析
    3.4 本章小结
第4章 结合协同注意力结构的跨模态检索模型
    4.1 人脸语音特征提取
        4.1.1 人脸图像特征提取
        4.1.2 语音特征提取
    4.2 结合协同注意力结构的跨模态检索模型
        4.2.1 协同注意力结构
        4.2.2 共同子空间映射
        4.2.3 三元组正负样本损失
    4.3 实验结果与分析
        4.3.1 静态图片数据集
        4.3.2 评价标准
        4.3.3 跨模态检索任务实验结果
    4.4 本章小结
第5章 基于长短时记忆门的动态跨模态检索匹配模型
    5.1 人脸和语音序列特征提取
        5.1.1 人脸序列关键点特征提取
        5.1.2 语音序列特征提取
    5.2 人脸语音跨模态检索和匹配模型
        5.2.1 结合长短时记忆门结构的编码-解码模型
        5.2.2 隐藏层约束和损失函数
    5.3 实验结果对比与分析
        5.3.1 动态序列数据集
        5.3.2 模型训练过程
        5.3.3 跨模态任务性能分析
    5.4 本章小结
第6章 结束语
    6.1 本文工作总结
    6.2 本文工作展望
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果



本文编号:3198984

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3198984.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户885a8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com