说话人识别系统的设计与研究

发布时间：2020-04-25 22:50

【摘要】：近些年来,机器学习的快速发展正在深度影响着人们的日常生活,其中人机交互是机器学习中的重点。在人机交互中,需要确定使用者身份并据此提供相应服务,而使用语音信息来达成这一效果是一个用户友好的选择,这便是说话人识别任务。本文围绕着构造鲁棒性强,识别效果好的说话人识别系统这一主题,提出了两种说话人识别系统。第一种是基于在线i-vector构造的说话人识别系统,该系统结合了i-vector模型和GMM-UBM系统的优点,在文本相关说话人识别任务上取得了优于ivector-PLDA基线系统的识别效果。第二种系统则是采用现在流行的深度学习技术,构造了两种基于神经网络的端到端说话人识别系统,在训练过程中达到了整体优化模型的效果,其中,基于Triplet代价函数的端到端说话人识别系统在短时的文本无关说话人测试集上取得了优于i-vector-PLDA基线系统的识别效果。
【图文】：

说话人识别,声纹,标量,信息

被称为一个负例 (Non-target Trial)，因此说话人识别本质上可以被视为一个二分类问题。说话人识别技术所要解决的问题就是如何构造一个系统，准确有效地完成一系列的二分类任务。目前为止，通用的说话人识别的框架如图2 1所示：图 2 1 说话人识别系统基本框架对于使用一系列时域上的数字信号表达的语音片段，说话人识别系统首先要对其进行一系列预处理，将其转变为频域上的特征，再经由一些处理模块提取出声纹信息，最终将这些声纹信息作为打分模块的输入，计算出一个标量数值，即当前试验的分数— 7 —

示意图,提取过程,神经网络,说话人

深度神经网络的输入，神经网络输出层之前一层的激活向量作为作为代表这个说话人信息的向量，并对该说话人所有输入数据取这一层激活向量的平均值，即为这个说话人对应的 d-vector。如图2 3所示，为 d-vector 对应的深度神经网络结构的示意图。与 i-vector 模型类似，，d-vector 是对应于一个语音片段的说话人模型的向量表达，且其维度固定，可以直接通过计算余弦距离计算分数。另外在训练好网络模型之后，d-vector 的提取只需要将语音片段对应的声学特征输入神经网络进行前传，就可以直接从输出层得到对应的 d-vector，相比于 i-vector 的提取需要耗费大量的计算资源，d-vector的提取耗费的计算资源相对较少
【学位授予单位】：上海交通大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TN912.34;TP183

【相似文献】