基于小波分析的声纹识别关键技术研究
发布时间:2021-08-02 23:24
声纹是指带有语音信息的声波频谱,是一种生物特征,具有唯一性和稳定性的特点。利用声纹识别说话人身份的技术被称为声纹识别技术。该技术是目前流行的身份认证技术之一,已经广泛地用于访问控制、刑侦、司法和信息服务等领域。目前,大多数声纹识别模型在无噪音环境中的识别准确率较高。然而,在噪音环境中,声纹识别模型的识别准确率通常会迅速下降。声纹识别的研究主要分为两个部分:语音特征提取研究和说话人建模研究。为了增强声纹识别模型的抗噪能力,本论文对语音特征提取和说话人建模技术进行了系统地研究,同时结合小波分析和深度学习理论,提出了新的语音特征提取算法和说话人模型。主要研究成果归纳如下:(1)针对倒谱系数对噪音敏感的问题,提出了小波子带倒谱系数(Wavelet Sub-band Cepstral Coefficient,WSCC)特征提取算法。该算法首先对语音样本进行离散小波变换,得到小波系数,然后采用阈值降噪技术抑制小波系数中的噪音,最后根据小波系数计算倒谱特征。幅值较大的小波系数表示语音中有价值的信息,而幅值较小的小波系数表示语音中的噪音信息。因此,通过阈值降噪过程,WSCC提取算法能够大幅度减少噪音对...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:115 页
【学位级别】:博士
【部分图文】:
WSCC-PNN模型的识别流程
第四章基于小波语音特征的I-vector模型59(a)(b)图4-2声纹识别过程。(a)WIv-CDS模型的识别过程;(b)PIv-CDS模型的识别过程这两个识别模型非常相似。它们的区别是:WIv-CDS使用WIv描述说话人信息,而PIv-CDS使用PIv描述说话人信息。PIv和WIv生成模块已经详细介绍过,这里不再重复。下面主要介绍CDS模块。CDS是用于I-vector分类的常用工具,
电子科技大学博士学位论文76图5-5声纹识别模型的识别流程该声纹识别模型分为两个阶段:注册阶段和识别阶段。在注册阶段,已知说话人将训练语音样本注册到声纹识别模型,该模型通过I-vector建模过程从训练语音中生成CNN/I-vecor并存放在数据库中;在识别阶段,未知说话人将测试语音样本提交到声纹识别模型,该模型也通过I-vector建模过程从测试语音中生成未知I-vector,最终使用CDS算法计算已知I-vector和未知I-vector的相似度,并给出识别结果。5.5实验与结论5.5.1实验数据集和平台本章实验使用5个数据集,分别为TIMIT,NTIMIT,CSLU,Vexceleb(VC)和AiShell(AS)数据库。TIMIT为标准的语音数据集,包含了630个说话人的语音样本。每个说话人提供10个5秒英文语音样本,采用16KHz的麦克风在无噪音环境下录制。NTIMIT为TIMIT的低采样版本,所有语音样本的采样率均为8KHz。CSLU为手机语音数据集,包含了500个说话人语音样本。每个说话人提供10个5秒英文语音样本,采用16KHz的手机麦克风在无噪音环境下录制。VC为噪音语音数据集,包含了400个说话人的语音样本。每个说话人提供8个5秒英文语音样本,采用16KHz的麦克风在噪音环境下录制。AS为中文语音数据集,包含了400个说话人的语音样本。每个说话人提供8个5秒语音样本,采用44.1KHz的高保真麦克风在无噪音环境下录制。所有实验都在一台搭载i5处理器和8G内存的PC机上完成。
本文编号:3318470
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:115 页
【学位级别】:博士
【部分图文】:
WSCC-PNN模型的识别流程
第四章基于小波语音特征的I-vector模型59(a)(b)图4-2声纹识别过程。(a)WIv-CDS模型的识别过程;(b)PIv-CDS模型的识别过程这两个识别模型非常相似。它们的区别是:WIv-CDS使用WIv描述说话人信息,而PIv-CDS使用PIv描述说话人信息。PIv和WIv生成模块已经详细介绍过,这里不再重复。下面主要介绍CDS模块。CDS是用于I-vector分类的常用工具,
电子科技大学博士学位论文76图5-5声纹识别模型的识别流程该声纹识别模型分为两个阶段:注册阶段和识别阶段。在注册阶段,已知说话人将训练语音样本注册到声纹识别模型,该模型通过I-vector建模过程从训练语音中生成CNN/I-vecor并存放在数据库中;在识别阶段,未知说话人将测试语音样本提交到声纹识别模型,该模型也通过I-vector建模过程从测试语音中生成未知I-vector,最终使用CDS算法计算已知I-vector和未知I-vector的相似度,并给出识别结果。5.5实验与结论5.5.1实验数据集和平台本章实验使用5个数据集,分别为TIMIT,NTIMIT,CSLU,Vexceleb(VC)和AiShell(AS)数据库。TIMIT为标准的语音数据集,包含了630个说话人的语音样本。每个说话人提供10个5秒英文语音样本,采用16KHz的麦克风在无噪音环境下录制。NTIMIT为TIMIT的低采样版本,所有语音样本的采样率均为8KHz。CSLU为手机语音数据集,包含了500个说话人语音样本。每个说话人提供10个5秒英文语音样本,采用16KHz的手机麦克风在无噪音环境下录制。VC为噪音语音数据集,包含了400个说话人的语音样本。每个说话人提供8个5秒英文语音样本,采用16KHz的麦克风在噪音环境下录制。AS为中文语音数据集,包含了400个说话人的语音样本。每个说话人提供8个5秒语音样本,采用44.1KHz的高保真麦克风在无噪音环境下录制。所有实验都在一台搭载i5处理器和8G内存的PC机上完成。
本文编号:3318470
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3318470.html