基于三元组损失与流形降维的文本无关说话人识别方法研究
【学位单位】:哈尔滨工业大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP309;TN912.34
【部分图文】:
2.1 引言本章主要介绍所采用的声学特征提取方法,基于因子分析的 I-VECTOR基线系统[34],以及基于深度学习的采用 VGG-M(Visual Geometry Group-Middle)CNN[35]架构的基线系统[34],并以此作为基准,与本文所提方法进行对比,最后介绍所采用的实验平台、数据集以及涉及的说话人识别系统评价指标。基于因子分析的 I-VECTOR 说话人识别方法仍依赖于 GMM-UBM 模型,在训练过程中通过学习总变化空间矩阵用以将 GMM 均值超矢量进行变换,最终得到 I-VECTOR 超矢量作为说话人的特征表示。另外,基于深度学习的VGG-M CNN 基线系统采用对比损失(Contrastive Loss)[36]对网络进行端到端的训练。在训练阶段,对网络进行复制,将网络组织为孪生网[36]的形式,使用对比损失作为网络训练准则计算损失,而后进行误差反向传播更新网络参数。说话人识别技术的通用框架包括四部分:语音预处理、语音声学特征提取、模型训练、相似度计算,其基本流程如图 2-1 所示。
1kHz 的区间中,赫兹频率与梅尔频率并不具备线性关系,而是遵循对数关系听觉系统感知的梅尔刻度与赫兹频率的关系如下式所示:102595log (1 )700Hzmelff + (2-1)式中 ——代表物理频率,单位是 Hz; ——代表声音频率,单位是 Mel。在 1980 年,Davis 和 Mermelstin 基于梅尔刻度与赫兹频率的映射关系提出了 MFCC 声学特征。MFCC 结合了人耳的听觉感知机理与人类发声原理经听觉实验证明,MFCC 是最接近人耳对于听觉感知的声学特征。随着声音频率的增高,人耳对声音的感知能力急剧下降[38],鉴于人耳对声音频率的选择性,往往实际使用 MFCC 时只保留低频维度的特征而丢弃高频部分。提取 MFCC 特征需依次通过如下六个步骤:语音预处理,快速傅里叶变换(Fast Fourier Transform,FFT),能量谱计算,通过梅尔滤波器组,对数能量计算,离散余弦变换(Discrete Consine Transform,DCT)[8]。如下图所示。
哈尔滨工业大学工学硕士学位论文ased End-to-End,TE2E)损失函数,以及基于 TE2neralized End-to-End Loss,GE2E)损失函数,在 A得了较好的效果[5]。说话人确认的流程为:基于已有是否属于某个目标说话人。该方法从说话人确认的流2E 与 GE2E 损失函数更加符合说话人确认的思想,。网络的输入为元组形式T={e ,(ek1, …, ekN)},其中语音,下标 j~表示第 j 个说话人的任意一句语音;而k 个说话人的注册语音,共计 N 句注册语音。若其一说话人(此时 ej~不能包含在注册语音中),模型反之为拒绝(Reject)。尽管该方法更符合说话人大小的批次数据中,其产生的可有效计算损失的元组,导致 TE2E 与 GE2E 训练速度要慢很多。然而,该离进行了显式的约束,使得其在文本相关的说话人确效果。
【相似文献】
相关期刊论文 前10条
1 刘倩;李时;;细菌趋药性算法在说话人识别中的应用[J];宿州学院学报;2017年11期
2 赵艳;吕亮;赵力;;基于修正Fukunaga-Koontz变换的说话人识别方法[J];电子器件;2018年04期
3 李为州;杨印根;;说话人识别中基于深度信念网络的超向量降维的研究[J];电脑知识与技术;2017年22期
4 雷震春;万艳红;罗剑;朱明华;;基于Mahalanobis距离的说话人识别模型研究[J];中国语音学报;2016年00期
5 王华朋;李宁;许锋;蔡能斌;;基于元音共振峰特征的法庭说话人识别[J];中国刑警学院学报;2014年02期
6 王华朋;杨军;许勇;;应用似然比框架的法庭说话人识别[J];数据采集与处理;2013年02期
7 檀蕊莲;刘建平;;说话人识别技术的研究进展[J];科技资讯;2007年33期
8 宁飞,陈频;说话人识别的几种方法[J];电声技术;2001年12期
9 曹业敏,侯风雷,王炳锡;说话人识别技术现状与进展[J];河南科技;1998年09期
10 王华朋;杨军;吴鸣;许勇;;基于自适应同源方差控制的法庭自动说话人识别[J];应用科学学报;2014年06期
相关博士学位论文 前10条
1 徐珑婷;基于稀疏分解的说话人识别技术研究[D];南京邮电大学;2017年
2 陆伟;基于缺失特征的文本无关说话人识别鲁棒性研究[D];中国科学技术大学;2008年
3 俞一彪;基于互信息理论的说话人识别研究[D];上海大学;2004年
4 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年
5 侯丽敏;基于非线性理论和信息融合的说话人识别[D];上海大学;2005年
6 雷震春;支持向量机在说话人识别中的应用研究[D];浙江大学;2006年
7 姚志强;说话人识别中提高GMM性能方法的研究[D];中国科学技术大学;2006年
8 包永强;噪声环境下说话人识别的研究[D];东南大学;2006年
9 林琳;基于模糊聚类与遗传算法的说话人识别理论研究及应用[D];吉林大学;2007年
10 解焱陆;基于特征变换和分类的文本无关电话语音说话人识别研究[D];中国科学技术大学;2007年
相关硕士学位论文 前10条
1 姜孝伟;说话人识别系统的设计与研究[D];上海交通大学;2018年
2 陈松;基于VQ的室内说话人识别及FPGA实现研究[D];安徽理工大学;2019年
3 蔡国都;基于x-vector的说话人识别研究[D];北京交通大学;2019年
4 孙念;基于多特征I-Vector的短语音说话人识别方法研究[D];重庆邮电大学;2019年
5 巴莉芳;基于含噪语音的说话人识别研究[D];重庆邮电大学;2019年
6 刘崇鸣;基于三元组损失与流形降维的文本无关说话人识别方法研究[D];哈尔滨工业大学;2019年
7 林婷;基于ICA和ASR语音特征选取的说话人识别算法[D];南昌大学;2019年
8 陈园允;变形欺骗性语音的检测算法研究及对其鲁棒的说话人识别系统实现[D];广东技术师范大学;2019年
9 徐钰婷;跨语言背景下基于单元音的说话人识别研究[D];深圳大学;2018年
10 陈莉芬;基于英语爆破音和摩擦音的跨语言说话人识别研究[D];深圳大学;2018年
本文编号:2888364
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2888364.html