基于矢量量化(VQ)的说话人识别的研究
发布时间:2017-10-16 21:40
本文关键词:基于矢量量化(VQ)的说话人识别的研究
更多相关文章: 说话人识别 语音增强 端点检测 MFCC 基音周期 矢量量化模型
【摘要】:说话人识别技术是语音识别领域的一项重要研究内容,它能够根据提取的有效反映人个性特征的参数进行身份识别。说话人识别的过程为:语音信号的预处理、语音信号的特征提取、说话人模型的建立与模型匹配、判决。本文主要研究了说话人识别过程中的以下几个方面:(1)在语音增强方面,首先针对噪声对说话人识别系统性能影响的问题,着重介绍了基于负熵的FastICA方法,本文还将该方法与短时谱幅度的MMSE方法结合起来,用于前端语音增强,实验结果表明,语音增强效果明显。(2)在端点检测方面,首先研究了传统双门限端点检测和基于倒谱距离的端点检测方法,并在此基础上研究了一种改进的倒谱距离端点检测算法,对比实验表明,其检测效果更佳。(3)在特征提取方面,本文中将语音信号的倒谱特征和基音周期结合的组合特征参数作为说话人识别的特征参数。但是,对这些特征参数直接进行叠加,会增加系统负担,从而训练和识别的时间大大增加,所以本文利用Fisher准则进行特征维数的选择,分别计算出这些特征参数每一维特征对应的Fisher准则比,然后分别选出每个特征参数Fisher准则比最大的几组进行特征组合,找出识别效果最好的一组特征参数,用于最终的说话人识别。实验结果表明:经过选择的组合特征,能够去除冗余,进一步提高识别效果。(4)在说话人识别模型方面,本文对矢量量化模型进行深入的研究。传统LBG算法在矢量量化的码本生成过程中,会出现对野值、脉冲噪声和椒盐噪声比较敏感的问题,且该算法用均值代替整个胞腔,使得胞腔之间界限变得模糊。针对这些问题,本文选择离质心最近的真实点代替整个胞腔,实验证明,该方法能有效的解决上述问题。
【关键词】:说话人识别 语音增强 端点检测 MFCC 基音周期 矢量量化模型
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.34
【目录】:
- 摘要3-4
- Abstract4-9
- 1 绪论9-15
- 1.1 说话人识别的研究背景与意义9-10
- 1.2 说话人识别的国内外研究现状10-11
- 1.3 说话人识别的研究难点及热点11-12
- 1.4 本文的主要工作12-13
- 1.5 本文的组织结构13-15
- 2 说话人识别概述15-23
- 2.1 语音的发声机理及产生模型15-17
- 2.1.1 激励模型15-16
- 2.1.2 声道模型16-17
- 2.1.3 辐射模型17
- 2.2 说话人识别的概念与分类17-18
- 2.3 说话人识别基本原理及其系统结构18-19
- 2.4 说话人识别模型19-20
- 2.5 说话人识别系统性能的评价指标20-21
- 2.6 语音文件格式21-22
- 2.7 本章总结22-23
- 3 语音信号的预处理23-42
- 3.1 预加重23
- 3.2 语音信号的分帧及加窗23-25
- 3.3 语音信号的去噪25-31
- 3.3.1 噪声的来源及分类25-26
- 3.3.2 传统语音增强算法26-31
- 3.4 本文去噪方法31-35
- 3.4.1 ICA基本原理31-32
- 3.4.2 基于负熵的FastICA32-33
- 3.4.3 本文去噪方法及实验33-35
- 3.5 端点检测35-41
- 3.5.1 传统的双门限端点检测35-36
- 3.5.2 基于倒谱距离的端点检测36-37
- 3.5.3 本文的端点检测方法37-40
- 3.5.4 改进的倒谱距离端点检测方法与传统端点检测算法效果对比40-41
- 3.6 本章小结41-42
- 4 语音信号的特征分析42-58
- 4.1 语音信号的时域分析42-46
- 4.1.1 短时能量分析42-43
- 4.1.2 短时平均过零率分析43-44
- 4.1.3 短时自相关函数分析44-46
- 4.2 语音信号的倒谱与复倒谱分析46-55
- 4.2.1 线性预测参数46-51
- 4.2.2 MEL倒谱系数(MFCC)51-53
- 4.2.3 差分特征参数53-54
- 4.2.4 声门信息融合54-55
- 4.3 基于FISHER准则的特征选择55-57
- 4.3.1 基于Fisher准则的混合特征参数的提取56-57
- 4.4 本章小结57-58
- 5 矢量量化(VQ)模型58-64
- 5.1 矢量量化(VQ)概述58-59
- 5.2 矢量量化的定义59-60
- 5.3 矢量量化的失真测度60
- 5.4 最佳矢量量化器的设计60-63
- 5.4.1 LBG算法61-62
- 5.4.2 改进LBG算法62
- 5.4.3 初始码本生成62-63
- 5.5 本章小结63-64
- 6 系统实现及实验结果64-74
- 6.1 系统框架及实现平台64-66
- 6.2 语音库介绍66
- 6.3 基于VQ的说话人识别实验结果66-73
- 6.3.1 特征矢量维数对识别结果的影响66-67
- 6.3.2 码本尺寸对识别结果的影响67-68
- 6.3.3 测试语音长度对识别结果的影响68
- 6.3.4 端点检测对识别结果的影响68-69
- 6.3.5 特征参数类型对识别结果的影响69-71
- 6.3.6 语音增强对识别结果的影响71-72
- 6.3.7 改进LBG算法对识别结果的影响72-73
- 6.4 本章小结73-74
- 7 总结及展望74-75
- 致谢75-76
- 参考文献76-80
- 附录80
【参考文献】
中国期刊全文数据库 前7条
1 丁佩律,张立明;结合主分量分析及Fisher准则的说话人识别方法研究[J];电路与系统学报;2002年01期
2 邓浩江,杜利民,万洪杰;似然得分归一化及其在与文本无关说话人确认中的应用[J];电子与信息学报;2005年07期
3 张芸;李昕;郑宇;杨庆涛;;一种基于Fisher准则的说话人识别方法研究[J];兰州大学学报(自然科学版);2007年02期
4 杨毅;陈国顺;鲍长春;;基于声学融合特征的说话人分类方法研究[J];计算机工程;2013年08期
5 崔兆国;周萍;;基于TEO能量谱减法的语音增强技术的研究[J];计算机应用与软件;2014年01期
6 尉洪,周浩,杨鉴;基于矢量量化的组合参数法说话人识别[J];云南大学学报(自然科学版);2002年02期
7 张君昌;胡海涛;崔力;;融合Burg谱估计与信号变化率测度的语音端点检测[J];西安电子科技大学学报;2014年03期
,本文编号:1045091
本文链接:https://www.wllwen.com/kejilunwen/wltx/1045091.html