基于多模态生成对抗网络和三元组损失的说话人识别
发布时间:2025-02-08 21:05
为了挖掘说话人识别领域中人脸和语音的相关性,该文设计多模态生成对抗网络(GAN),将人脸特征和语音特征映射到联系更加紧密的公共空间,随后利用3元组损失对两个模态的联系进一步约束,拉近相同个体跨模态样本的特征距离,拉远不同个体跨模态样本的特征距离。最后通过计算公共空间特征的跨模态余弦距离判断人脸和语音是否匹配,并使用Softmax识别说话人身份。实验结果表明,该方法能有效地提升说话人识别准确率。
【文章页数】:7 页
【部分图文】:
本文编号:4031985
【文章页数】:7 页
【部分图文】:
图1 本文所提网络结构图
从图1中可以看出,网络的最初始输入分别为人脸图片和语音信号,在输入GAN之前,图1分别对它们进行预处理。语音部分采用传统语音识别中常用的梅尔倒谱系数(MelFrequencyCepstrumCoefficients,MFCC)特征,考虑到说话人识别任务中的样本是一个时域窗口....
图2 不同margin值的ROC
其中,假正率表示不匹配样本中被判断成匹配样本的比例,与通常的ROC曲线不同,本文图中真正率表示的是匹配样本中被正确判断,并且被正确识别出ID的比例。可以从图2看到,margin取0.2时,对应的ROC曲线的AUC面积最大,因此本文最终采用0.2的margin值。而对于阈值的选取,....
图3 不同阈值的识别结果
由于预训练GAN已经使得两个模态的特征在公共空间距离靠近,为了验证使用3元组损失训练特征匹配判断网络的必要性,本文对比了选用公共层特征进行识别与选用特征匹配判断网络特征进行识别的实验结果。其中直接选用公共层特征的实验结果如图5所示。图5中所示匹配准确率表示匹配样本和不匹配样本分别....
图4 是否具有公共层的ROC曲线对比
从图5(c)中可以看到,在总准确率指标上,有特征匹配判断网络的识别结果明显优于无特征匹配判断网络的识别结果。从图5(a),图5(b),图5(c),可以发现不使用特征匹配判断网络时,不论样本的两个模态是否匹配,特征的余弦距离都趋近于1。因此该实验验证了特征匹配判断网络能有效地拉远不....
本文编号:4031985
本文链接:https://www.wllwen.com/kejilunwen/wltx/4031985.html
教材专著