当前位置:主页 > 科技论文 > 信息工程论文 >

基于三元组损失与流形降维的文本无关说话人识别方法研究

发布时间:2020-11-18 05:23
   随着互联网的迅猛发展,个人信息隐私安全受到了越来越多的关注,基于生物信息身份验证技术的应用越来越普遍。说话人识别作为一项核心的身份验证技术,被广泛应用于司法、门禁访问控制、智能移动终端唤醒等领域。与指纹识别、人脸识别、虹膜识别相比,说话人识别对输入设备要求更低,基于嵌入式的麦克风即可实现,因而应用到实际生活场景中的成本更低。同时说话人识别技术在国家安全防控领域也发挥着重要的作用,如基于电话语音的疑犯识别。基于I-VECTOR(Identification Vector)的说话人识别技术是目前说话人识别领域的主流方法之一。然而其模型训练步骤繁琐,且各阶段使用不同的目标函数来优化求解,使得各阶段产生的误差无法在下一阶段得到修正,同时I-VECTOR方法得到的超矢量维度较高,带来了较高的计算量。近年来,出现了基于三元组损失(Triplet Loss)的端到端神经网络方法,它使用唯一的目标函数来对说话人进行建模,避免了I-VECTOR各阶段独立优化的问题,得到的超矢量维度较低,能够显著降低计算量。此外,三元组损失的思想与说话人识别目标相契合,即拉近同类距离,推远异类距离。泛化端到端损失(Generalized End to End Loss,GE2E)为Google于2018年提出的用于文本相关说话人确认任务的方法,尽管它对类内距离进行了很好的约束,然而却无法有效利用训练数据,导致其训练效率要远远低于三元组损失的方法。为此,本文借鉴GE2E对类内距离约束的思想,研究基于引入类内距离约束的改进三元组损失的端到端说话人识别方法。由于真实条件下语音间差异较大,为降低说话人类内散度,本文采用基于流形学习的t分布的随机近邻嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)算法对神经网络得到的说话人特征嵌入进行信道补偿。考虑到真实条件下语音中的某些帧较为纯净,对说话人识别更有帮助,因而本文采用注意力加权池化(Attention Weighted Pooling)方法有效提升模型对于噪声的鲁棒性。本文所提出的基于三元组损失端到端特征嵌入与t-SNE信道补偿的说话人识别方法,在VoxCeleb1数据集上的识别性能与基线系统相比均有显著提升。
【学位单位】:哈尔滨工业大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP309;TN912.34
【部分图文】:

工作流程图,工作流程图,说话人识别,基线


2.1 引言本章主要介绍所采用的声学特征提取方法,基于因子分析的 I-VECTOR基线系统[34],以及基于深度学习的采用 VGG-M(Visual Geometry Group-Middle)CNN[35]架构的基线系统[34],并以此作为基准,与本文所提方法进行对比,最后介绍所采用的实验平台、数据集以及涉及的说话人识别系统评价指标。基于因子分析的 I-VECTOR 说话人识别方法仍依赖于 GMM-UBM 模型,在训练过程中通过学习总变化空间矩阵用以将 GMM 均值超矢量进行变换,最终得到 I-VECTOR 超矢量作为说话人的特征表示。另外,基于深度学习的VGG-M CNN 基线系统采用对比损失(Contrastive Loss)[36]对网络进行端到端的训练。在训练阶段,对网络进行复制,将网络组织为孪生网[36]的形式,使用对比损失作为网络训练准则计算损失,而后进行误差反向传播更新网络参数。说话人识别技术的通用框架包括四部分:语音预处理、语音声学特征提取、模型训练、相似度计算,其基本流程如图 2-1 所示。

示意图,特征提取,示意图,声音频率


1kHz 的区间中,赫兹频率与梅尔频率并不具备线性关系,而是遵循对数关系听觉系统感知的梅尔刻度与赫兹频率的关系如下式所示:102595log (1 )700Hzmelff + (2-1)式中 ——代表物理频率,单位是 Hz; ——代表声音频率,单位是 Mel。在 1980 年,Davis 和 Mermelstin 基于梅尔刻度与赫兹频率的映射关系提出了 MFCC 声学特征。MFCC 结合了人耳的听觉感知机理与人类发声原理经听觉实验证明,MFCC 是最接近人耳对于听觉感知的声学特征。随着声音频率的增高,人耳对声音的感知能力急剧下降[38],鉴于人耳对声音频率的选择性,往往实际使用 MFCC 时只保留低频维度的特征而丢弃高频部分。提取 MFCC 特征需依次通过如下六个步骤:语音预处理,快速傅里叶变换(Fast Fourier Transform,FFT),能量谱计算,通过梅尔滤波器组,对数能量计算,离散余弦变换(Discrete Consine Transform,DCT)[8]。如下图所示。

架构图,说话人确认,架构,说话人


哈尔滨工业大学工学硕士学位论文ased End-to-End,TE2E)损失函数,以及基于 TE2neralized End-to-End Loss,GE2E)损失函数,在 A得了较好的效果[5]。说话人确认的流程为:基于已有是否属于某个目标说话人。该方法从说话人确认的流2E 与 GE2E 损失函数更加符合说话人确认的思想,。网络的输入为元组形式T={e ,(ek1, …, ekN)},其中语音,下标 j~表示第 j 个说话人的任意一句语音;而k 个说话人的注册语音,共计 N 句注册语音。若其一说话人(此时 ej~不能包含在注册语音中),模型反之为拒绝(Reject)。尽管该方法更符合说话人大小的批次数据中,其产生的可有效计算损失的元组,导致 TE2E 与 GE2E 训练速度要慢很多。然而,该离进行了显式的约束,使得其在文本相关的说话人确效果。
【相似文献】

相关期刊论文 前10条

1 刘倩;李时;;细菌趋药性算法在说话人识别中的应用[J];宿州学院学报;2017年11期

2 赵艳;吕亮;赵力;;基于修正Fukunaga-Koontz变换的说话人识别方法[J];电子器件;2018年04期

3 李为州;杨印根;;说话人识别中基于深度信念网络的超向量降维的研究[J];电脑知识与技术;2017年22期

4 雷震春;万艳红;罗剑;朱明华;;基于Mahalanobis距离的说话人识别模型研究[J];中国语音学报;2016年00期

5 王华朋;李宁;许锋;蔡能斌;;基于元音共振峰特征的法庭说话人识别[J];中国刑警学院学报;2014年02期

6 王华朋;杨军;许勇;;应用似然比框架的法庭说话人识别[J];数据采集与处理;2013年02期

7 檀蕊莲;刘建平;;说话人识别技术的研究进展[J];科技资讯;2007年33期

8 宁飞,陈频;说话人识别的几种方法[J];电声技术;2001年12期

9 曹业敏,侯风雷,王炳锡;说话人识别技术现状与进展[J];河南科技;1998年09期

10 王华朋;杨军;吴鸣;许勇;;基于自适应同源方差控制的法庭自动说话人识别[J];应用科学学报;2014年06期


相关博士学位论文 前10条

1 徐珑婷;基于稀疏分解的说话人识别技术研究[D];南京邮电大学;2017年

2 陆伟;基于缺失特征的文本无关说话人识别鲁棒性研究[D];中国科学技术大学;2008年

3 俞一彪;基于互信息理论的说话人识别研究[D];上海大学;2004年

4 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年

5 侯丽敏;基于非线性理论和信息融合的说话人识别[D];上海大学;2005年

6 雷震春;支持向量机在说话人识别中的应用研究[D];浙江大学;2006年

7 姚志强;说话人识别中提高GMM性能方法的研究[D];中国科学技术大学;2006年

8 包永强;噪声环境下说话人识别的研究[D];东南大学;2006年

9 林琳;基于模糊聚类与遗传算法的说话人识别理论研究及应用[D];吉林大学;2007年

10 解焱陆;基于特征变换和分类的文本无关电话语音说话人识别研究[D];中国科学技术大学;2007年


相关硕士学位论文 前10条

1 姜孝伟;说话人识别系统的设计与研究[D];上海交通大学;2018年

2 陈松;基于VQ的室内说话人识别及FPGA实现研究[D];安徽理工大学;2019年

3 蔡国都;基于x-vector的说话人识别研究[D];北京交通大学;2019年

4 孙念;基于多特征I-Vector的短语音说话人识别方法研究[D];重庆邮电大学;2019年

5 巴莉芳;基于含噪语音的说话人识别研究[D];重庆邮电大学;2019年

6 刘崇鸣;基于三元组损失与流形降维的文本无关说话人识别方法研究[D];哈尔滨工业大学;2019年

7 林婷;基于ICA和ASR语音特征选取的说话人识别算法[D];南昌大学;2019年

8 陈园允;变形欺骗性语音的检测算法研究及对其鲁棒的说话人识别系统实现[D];广东技术师范大学;2019年

9 徐钰婷;跨语言背景下基于单元音的说话人识别研究[D];深圳大学;2018年

10 陈莉芬;基于英语爆破音和摩擦音的跨语言说话人识别研究[D];深圳大学;2018年



本文编号:2888364

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2888364.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b9b81***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com