基于深度学习的说话人识别技术应用
【文章页数】:94 页
【学位级别】:硕士
【部分图文】:
图2-1?MFCC提取及转置流程图??1..数模转换(A/D?conversion)??
?电子科技大学硕士学位论文???第二章背景知识与相关理论??2.1语音信号的特征提取??2.1.1梅尔倒频系数??MFCC至今仍是最优秀的语音特征集之一,其主要优点是能够在短时功率谱??中对声道进行建模。39维的MFCC特征是现有语音研究中的常用特征,此维数小??到足够学习到音频....
图2-2实际频率与梅尔频率的映射关系图??
随窗:函数的选择变化,Hamming窗’??取值为0.46164,Hanning窗取值为0.5。??4.离散傅里叶变换??采用DFT提取频域中的信息,由公式(2-4)完成时域信号到频域信号的转换。??耶]=2〇n]e_/27rfc/W?(2-4)??5.梅尔滤波器组??设备的测量....
图2-3三角滤波器工作原理示意图??
?电子科技大莩硕土学位论文???接下来使用三角带通滤波器将频率信息转换成为人耳接收的模拟債息》首先??对DFT转换的输出求乎方,这反应了每个频率的语音功率,称之为DFT功率谱。??之后使用H角梅尔滤波器组将该能量镨转换为梅尔功率谱,每个梅尔能養谱槽的??输出代表其覆盖的多个频带的....
图2-4?GMM-UBM模型训练-识别流程图??
UniversalBackgroundModel,UBM).?[36,37]。UBM?代表了除了?目标说??话人之外的每个人,从本质上来说是一个大型的GMM。UBM是通过EM算法对??大量说话人语音训练出来的独立于说话人的背景模型,该模型表示了特征向量与??说话人无关的分布g当新....
本文编号:3967790
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3967790.html