基于VGMM算法的语音身份识别研究
发布时间:2020-10-28 03:38
语音身份识别技术是对说话人身份的验证,语音身份识别技术在多个领域都有广泛的应用,然而如何科学有效的提高语音身份识别技术的识别率和识别速度成为重要难点,使语音身份识别技术更具鲁棒性成为了当下极为重要的课题。当前大部分语音身份识别技术在理想的环境下识别率较高,但是在实际开发应用中,较短的说话人语音和复杂的环境下都会导致语音身份识别技术的识别率明显下降。因此本文主要研究在噪声环境下和较短说话人语音的语音身份识别技术,论文的主要研究内容如下:(1)在语音预处理方面,分析语音身份识别技术的常用语音端点检测方法(VAD),有短时能量、短时过零率及两级判断的端点检测方法,以上方法的语音端点检测效果在噪声背景下不是十分理想,本文提出一种改进的逐级分段的方法,通过小波变换(WT)方法检测语音帧信号的状态,对比实验验证改进的端点检测方法增强效果明显。(2)在语音特征提取方面,研究语音身份识别过程中的几种常见的特征参数线性倒谱系数(LPCC)和梅尔倒谱系数(MFCC),MFCC参数在噪声环境强的干扰下会使系统识别性能下降,因此提出了改进的WT-MFCC特征参数提取,对比MFCC特征参数,WT-MFCC更好地体现了语音特征参数的动态特性,从而有利于提高识别率,对改进的特征参数与MFCC进行实验验证。(3)在研究语音身份识别训练模型过程时发现传统的高斯混合模型(GMM)的聚类方法不太稳定,采样较短的语音识别率会下降。为了提高语音身份识别的识别性能,改进了GMM模型的训练过程,提出VGMM模型,用改进的分裂法(SA)初始码本,研究采用LBG算法生成码本,得到码本序列后经过最大期望算法(EM)对GMM模型参数初始化,WT-MFCC参数和VGMM训练识别方法结合进行仿真测试实验,分析了不同参数对语音身份识别系统识别率的影响。
【学位单位】:哈尔滨理工大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TN912.34
【部分图文】:
高通滤波频谱图
语音信号的分帧Fig.3-2Framingofspeechsignals
图 3-9 不同端点检测下的语音识别率Fig. 3-9 Speech recognition rate under different endpoint detection特征提取征参数提取是语音身份识别系统中的一个及其关键的部分,特征
【相似文献】
本文编号:2859525
【学位单位】:哈尔滨理工大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TN912.34
【部分图文】:
高通滤波频谱图
语音信号的分帧Fig.3-2Framingofspeechsignals
图 3-9 不同端点检测下的语音识别率Fig. 3-9 Speech recognition rate under different endpoint detection特征提取征参数提取是语音身份识别系统中的一个及其关键的部分,特征
【相似文献】
相关硕士学位论文 前1条
1 党国斌;基于VGMM算法的语音身份识别研究[D];哈尔滨理工大学;2019年
本文编号:2859525
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2859525.html