与文本无关的说话人识别技术研究
发布时间:2022-01-24 22:06
说话人识别又被称为声纹识别,是指从人声中提取身份信息从而实现对人的身份判别。与实验室的理想条件相比,实际应用场景中的说话人识别问题在于跨信道的识别结果较差,且实际应用中,为方便采集音频,用于训练声纹模型的样本量较小。因此,为了将说话人识别应用于智能家居场景下对多设备音频采集、训练及测试的工程应用中,需要重点研究在样本量较小的情况下的说话人识别问题。首先,本文建立了适用于小样本多设备情况下的说话人识别的数据库。说话人识别数据库人数为31人,每人录音时长为10分钟,其中朗读部分约为8分钟,该部分作为训练集,自由发言部分约为2分钟,该部分组成测试集。本文使用多个设备进行数据采集,针对不同的设备选择合适的参数进行预处理步骤,针对每个设备,使用对应设备采集的音频进行说话人模型建立与识别。当训练设备与测试设备不一致时,识别准确率下降严重。因此对于待测音频,在进行设备识别后,使用对应设备训练的说话人模型进行识别,从而提高由多个录音设备形成的说话人识别平台的说话人识别准确率。其次,以梅尔倒谱频率系数及高斯混合模型-背景通用模型作为说话人识别算法的基线模型,并在自建数据库上进行实验。本文设计并实现了针对...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
与文本无关的开集说话人识别系统评价标准
第三章特征提取算法设计第三章特征提取算法设计本章介绍了多种音频预处理方法以及音频特征提取方法,并提出将增强经验模式分解理论运用至特征提取过程中,得到新的特征作为说话人识别特征。3.1音频数据预处理3.1.1预加重当语音信号的频率大于800Hz时,平均功率谱会按6dB/倍频的程度衰减。因此语音信号频谱中的高频成分较少,需要在求信号频谱前进行预加重处理。通常,使用一阶数字滤波器实现预加重功能,表达式如下H(z)=1μz1(3-1)其中,μ通常取0.9到1之间的数值。下图为对语音信号进行预加重前后的对比图示。图3-1预加重前后语音信号时域对比图13
电子科技大学硕士学位论文图3-2预加重前后语音信号频域对比图3.1.2分帧加窗语音信号作为一个非平稳过程。但在较短的时间间隔如20毫秒至30毫秒内,可认为语音信号是短时平稳的。因此,可以将语音信号分割称为多个20-30毫秒的语音片段,以满足后续阶段对信号平稳性的要求。保持语音帧与帧之间的平滑过渡和信号连续性,通常相邻帧间保留大约三分之一帧长度重叠。分帧的操作通过滑动窗口实现。将窗函数w(n)与语音信号序列s(n),相乘结果sω(n)=s(n)ω(n)从而为当前郑通常,分帧的窗函数为矩形窗和汉明窗。通常,窗函数表达式如下所示:矩形窗:w(n)=1,0≤n≤(N1)0,n=else(3-2)汉明窗:w(n)=0.540.46cos[2πn/(N1)],0≤n≤N10,n=else(3-3)汉宁窗:14
【参考文献】:
期刊论文
[1]基于多模态生成对抗网络和三元组损失的说话人识别[J]. 陈莹,陈湟康. 电子与信息学报. 2020(02)
[2]加性噪声条件下鲁棒说话人确认[J]. 张二华,王明合,唐振民. 电子学报. 2019(06)
[3]基于MFCC与GFCC混合特征参数的说话人识别[J]. 周萍,沈昊,郑凯鹏. 应用科学学报. 2019(01)
[4]基于多特征i-vector的短语音说话人识别算法[J]. 孙念,张毅,林海波,黄超. 计算机应用. 2018(10)
[5]说话人识别中的分数域语速归一化[J]. 艾斯卡尔·肉孜,王东,李蓝天,郑方,张晓东,金磐石. 清华大学学报(自然科学版). 2018(04)
[6]基于改进的深度神经网络的说话人辨认研究[J]. 赵艳,吕亮,赵力. 电子器件. 2017(05)
[7]基于小波倒谱系数和概率神经网络的取证说话人识别模型[J]. 雷磊,佘堃. 计算机应用研究. 2018(04)
[8]基于GMM非线性变换的说话人识别算法的研究[J]. 罗文华,杨彦,齐健,赵力. 电子器件. 2017(03)
[9]基于深度神经网络和Bottleneck特征的说话人识别系统[J]. 田垚,蔡猛,何亮,刘加. 清华大学学报(自然科学版). 2016(11)
[10]噪声环境下文本相关说话人识别方法改进[J]. 谭萍,邢玉娟. 西安工程大学学报. 2016(05)
博士论文
[1]基于结构化深度学习的语音识别自适应技术研究[D]. 谭天.上海交通大学 2018
[2]复杂信道下的说话人识别[D]. 郭武.中国科学技术大学 2007
硕士论文
[1]面向说话人识别的深度学习方法研究[D]. 樊云云.南昌航空大学 2019
[2]基于模糊神经网络的说话人识别方法研究[D]. 杨志勇.南昌航空大学 2019
[3]基于x-vector的说话人识别研究[D]. 蔡国都.北京交通大学 2019
[4]基于附加间隔损失函数的声纹识别[D]. 樊磊.南京大学 2019
[5]基于深度神经网络的声纹欺骗检测研究[D]. 陈柱欣.华南理工大学 2019
[6]基于神经网络的声纹识别研究[D]. 邱子璇.电子科技大学 2019
[7]说话人识别中通用背景模型研究及深度学习初探[D]. 梅文星.浙江大学 2019
[8]噪声环境下说话人识别的鲁棒性研究[D]. 张洪冉.南京邮电大学 2018
[9]面向云桌面图片的OCR关键技术研究[D]. 段少明.哈尔滨工业大学 2018
[10]语音信号的增强及其识别算法[D]. 卢亚敏.南京信息工程大学 2018
本文编号:3607383
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
与文本无关的开集说话人识别系统评价标准
第三章特征提取算法设计第三章特征提取算法设计本章介绍了多种音频预处理方法以及音频特征提取方法,并提出将增强经验模式分解理论运用至特征提取过程中,得到新的特征作为说话人识别特征。3.1音频数据预处理3.1.1预加重当语音信号的频率大于800Hz时,平均功率谱会按6dB/倍频的程度衰减。因此语音信号频谱中的高频成分较少,需要在求信号频谱前进行预加重处理。通常,使用一阶数字滤波器实现预加重功能,表达式如下H(z)=1μz1(3-1)其中,μ通常取0.9到1之间的数值。下图为对语音信号进行预加重前后的对比图示。图3-1预加重前后语音信号时域对比图13
电子科技大学硕士学位论文图3-2预加重前后语音信号频域对比图3.1.2分帧加窗语音信号作为一个非平稳过程。但在较短的时间间隔如20毫秒至30毫秒内,可认为语音信号是短时平稳的。因此,可以将语音信号分割称为多个20-30毫秒的语音片段,以满足后续阶段对信号平稳性的要求。保持语音帧与帧之间的平滑过渡和信号连续性,通常相邻帧间保留大约三分之一帧长度重叠。分帧的操作通过滑动窗口实现。将窗函数w(n)与语音信号序列s(n),相乘结果sω(n)=s(n)ω(n)从而为当前郑通常,分帧的窗函数为矩形窗和汉明窗。通常,窗函数表达式如下所示:矩形窗:w(n)=1,0≤n≤(N1)0,n=else(3-2)汉明窗:w(n)=0.540.46cos[2πn/(N1)],0≤n≤N10,n=else(3-3)汉宁窗:14
【参考文献】:
期刊论文
[1]基于多模态生成对抗网络和三元组损失的说话人识别[J]. 陈莹,陈湟康. 电子与信息学报. 2020(02)
[2]加性噪声条件下鲁棒说话人确认[J]. 张二华,王明合,唐振民. 电子学报. 2019(06)
[3]基于MFCC与GFCC混合特征参数的说话人识别[J]. 周萍,沈昊,郑凯鹏. 应用科学学报. 2019(01)
[4]基于多特征i-vector的短语音说话人识别算法[J]. 孙念,张毅,林海波,黄超. 计算机应用. 2018(10)
[5]说话人识别中的分数域语速归一化[J]. 艾斯卡尔·肉孜,王东,李蓝天,郑方,张晓东,金磐石. 清华大学学报(自然科学版). 2018(04)
[6]基于改进的深度神经网络的说话人辨认研究[J]. 赵艳,吕亮,赵力. 电子器件. 2017(05)
[7]基于小波倒谱系数和概率神经网络的取证说话人识别模型[J]. 雷磊,佘堃. 计算机应用研究. 2018(04)
[8]基于GMM非线性变换的说话人识别算法的研究[J]. 罗文华,杨彦,齐健,赵力. 电子器件. 2017(03)
[9]基于深度神经网络和Bottleneck特征的说话人识别系统[J]. 田垚,蔡猛,何亮,刘加. 清华大学学报(自然科学版). 2016(11)
[10]噪声环境下文本相关说话人识别方法改进[J]. 谭萍,邢玉娟. 西安工程大学学报. 2016(05)
博士论文
[1]基于结构化深度学习的语音识别自适应技术研究[D]. 谭天.上海交通大学 2018
[2]复杂信道下的说话人识别[D]. 郭武.中国科学技术大学 2007
硕士论文
[1]面向说话人识别的深度学习方法研究[D]. 樊云云.南昌航空大学 2019
[2]基于模糊神经网络的说话人识别方法研究[D]. 杨志勇.南昌航空大学 2019
[3]基于x-vector的说话人识别研究[D]. 蔡国都.北京交通大学 2019
[4]基于附加间隔损失函数的声纹识别[D]. 樊磊.南京大学 2019
[5]基于深度神经网络的声纹欺骗检测研究[D]. 陈柱欣.华南理工大学 2019
[6]基于神经网络的声纹识别研究[D]. 邱子璇.电子科技大学 2019
[7]说话人识别中通用背景模型研究及深度学习初探[D]. 梅文星.浙江大学 2019
[8]噪声环境下说话人识别的鲁棒性研究[D]. 张洪冉.南京邮电大学 2018
[9]面向云桌面图片的OCR关键技术研究[D]. 段少明.哈尔滨工业大学 2018
[10]语音信号的增强及其识别算法[D]. 卢亚敏.南京信息工程大学 2018
本文编号:3607383
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3607383.html