基于人脸和语音深度特征融合的说话人识别与标注算法研究
发布时间:2025-04-01 05:18
说话人鉴定在众多实际安全领域有重要应用,然而基于单一模态生物特征的鉴定模型易受环境因素变化的影响。通常较单一模态,多模态特征融合方法可以提供更丰富和更全面的本质信息,并且近年来得到了越来越多的关注。因此,有效的多模态特征融合方法发展对这些安全应用领域具有重要的实际意义.本文首先阐述有效的语音人脸特征融合的说话人识别方法,其中融合方法基于多模态特征融合的神经网络实现。人脸特征通过卷积神经网络提取得到,语音特征则通过手工提取的高层语义特征,以此实现人脸特征与语音特征之间的兼容,同时整个过程端到端实现,可以达到自动学习特征融合映射关系。本文针对不同人脸语音特征融合的网络作出不同层次的融合方式的比较,进而得出不同层次融合对最终识别性能的影响。最终的实验结果表明多模态特征融合的方法较单模型方法性能更为高效,通过对比不同层次的特征融合方法,发现特征层融合方法较决策层融合方法更为有效。其次阐述了基于人脸语音特征融合的方法,本文进一步提出了基于注意力机制的人脸语音特征融合的说话人标注算法。首先通过VGG-face得到对应的人脸特征以及语音的MFCCs,作为后续网络输入,后本文针对语音特征的编码提出两种不...
【文章页数】:84 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 引言
1.1 课题背景及研究意义
1.2 多生物特征融合
1.3 基于人脸和语音的特征融合研究现状
1.4 论文内容与组织结构
1.5 本章小节
第2章 深度学习相关理论介绍
2.1 几种典型深度学习基础方法介绍
2.1.1 受限玻尔兹曼机
2.1.2 卷积神经网络
2.1.3 递归神经网络
2.2 多模深度学习介绍
2.3 本章小结
第3章 基于多模关联深度神经网络的人脸和语音特征融合算法
3.1 引言
3.2 人脸和语音的特征提取
3.2.1 基于自定义卷积层的人脸特征提取
3.2.2 语音特征MFCCs提取
3.3 多样化特征融合特征层融合算法
3.3.1 特征层拼接融合
3.3.2 特征层深度特征非线性拼接融合
3.3.3 决策层特征相加融合
3.3.4 决策层深度特征非线性相加融合
3.4 实验结果与分析
3.4.1 数据集:Friends
3.4.2 实验设置
3.4.3 人脸模型
3.4.4 人脸语音多模型
3.5 本章小结
第4章 基于注意力机制的人脸语音特征融合及说话人标注算法
4.1 引言
4.2 说话人标注相关工作
4.2.1 基于单模型的说话人标注方法
4.2.2 基于多模型的说话人标注方法
4.3 说话人标注模型
4.3.1 问题与解决方法公式化
4.3.2 基于VGG-face的人脸特征提取方法
4.3.3 基于LSTM或卷积的语音特征提取方法
4.3.4 共性语义显著性特征方法
4.3.5 基于低秩矩阵分解的双线性融合方法
4.4 实验与结果分析
4.4.1 数据预处理
4.4.2 评价标准
4.4.3 语音编码模块性能与分析
4.4.4 说话人标注性能与分析
4.5 本章小结
第5章 结束语
5.1 本文工作总结
5.2 本文工作展望
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果
本文编号:4038983
【文章页数】:84 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 引言
1.1 课题背景及研究意义
1.2 多生物特征融合
1.3 基于人脸和语音的特征融合研究现状
1.4 论文内容与组织结构
1.5 本章小节
第2章 深度学习相关理论介绍
2.1 几种典型深度学习基础方法介绍
2.1.1 受限玻尔兹曼机
2.1.2 卷积神经网络
2.1.3 递归神经网络
2.2 多模深度学习介绍
2.3 本章小结
第3章 基于多模关联深度神经网络的人脸和语音特征融合算法
3.1 引言
3.2 人脸和语音的特征提取
3.2.1 基于自定义卷积层的人脸特征提取
3.2.2 语音特征MFCCs提取
3.3 多样化特征融合特征层融合算法
3.3.1 特征层拼接融合
3.3.2 特征层深度特征非线性拼接融合
3.3.3 决策层特征相加融合
3.3.4 决策层深度特征非线性相加融合
3.4 实验结果与分析
3.4.1 数据集:Friends
3.4.2 实验设置
3.4.3 人脸模型
3.4.4 人脸语音多模型
3.5 本章小结
第4章 基于注意力机制的人脸语音特征融合及说话人标注算法
4.1 引言
4.2 说话人标注相关工作
4.2.1 基于单模型的说话人标注方法
4.2.2 基于多模型的说话人标注方法
4.3 说话人标注模型
4.3.1 问题与解决方法公式化
4.3.2 基于VGG-face的人脸特征提取方法
4.3.3 基于LSTM或卷积的语音特征提取方法
4.3.4 共性语义显著性特征方法
4.3.5 基于低秩矩阵分解的双线性融合方法
4.4 实验与结果分析
4.4.1 数据预处理
4.4.2 评价标准
4.4.3 语音编码模块性能与分析
4.4.4 说话人标注性能与分析
4.5 本章小结
第5章 结束语
5.1 本文工作总结
5.2 本文工作展望
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果
本文编号:4038983
本文链接:https://www.wllwen.com/kejilunwen/wltx/4038983.html