基于支持向量机的MFCC特征参量研究和核函数选择分析
发布时间:2017-09-29 10:44
本文关键词:基于支持向量机的MFCC特征参量研究和核函数选择分析
更多相关文章: 说话人识别 语音预处理 Mel频率倒谱系数 支持向量机 平均影响值
【摘要】:说话人识别是人与生俱来的一种生理或行为特征,与其它生物识别,如:指纹、人脸、虹膜等相比,更加简单、经济、方便快捷。说话人识别从信号检测与处理、模式识别、人工智能、机器学习等理论与技术的发展中形成,是一个涉及生理学、心理学、声学、语音学等多领域的综合课程。说话人识别受到下面因素的影响:一是特征参数,能够表征说话人个性的特征参数有很多种,其中,当输入一个信号时,Mel频率倒谱系数(MFCC)对其没有任何猜想,也不做任何限制,对信号的性质也没有依赖性,又利用了听觉模型的研究成果,符合实际的听音效果。在用于替代人耳来分析语音时,有很好的性能和鲁棒性,所以本文选取的特征参数为MFCC参数。二是识别模型,说话人识别模型也有很多种,其中,支持向量机(SVM)在小样本、非线性、局部极小值和高维模式识别中优势明显,具有很强的对新鲜样本适应的能力,所以本文选取的识别模型为SVM。本文从对MFCC特征参数的处理和SVM的核函数优化两方面进行了研究,主要是下面四方面的研究内容:(1)本文对语音预处理中语音分帧、预加重系数、采样频率、Mel滤波器个数,这四个量的选取对语音分类率的影响作了分析,依次设定其中一个为变量其它全为定量的方法进行研究。实验表明:可以对语音进行帧长N=512、帧移M=170的分帧;预加重系数a=0.91;采样频率f=16KHz; Mel滤波器的个数m=24的预处理,经过这样的预处理后,得到的MFCC参数更加稳健。(2)很多实验已经证明MFCC参数最前面的几维对语音的分类性能影响较大,但是没有考虑过最前面的几组对语音分类率的影响,本文对MFCC特征参数的前面几组(分析了前面两组)的重要性也作了分析。实验表明:应该保留全部200组MFCC特征参数。(3)本文对SVM的核函数类型以及核参数选取对SVM分类能力的影响作了分析。实验表明:在SVM中采用RBF核这个核函数,能得到最高的分类准确率;用网格搜索和K折交叉验证法选择出的参数优于人为(凭经验)选定的核参数。(4)MFCC参数各维数之间存在大量冗余信息,引用平均影响值法对每维MFCC参数进行排序,可以剔除相对重要性低的MFCC。本文研究与以往不同的是,往常在MFCC参数原值的基础上加/减10%,本文新增加浮动量到30%、50%、70%、90%。实验表明:在原始特征的基础上加/减90%,这样筛选出的MFCC参数训练SVM,得到的最高语音分类率优于其他浮动量下得到的最高语音分类率。而且降维后,在选取最高10维时,得到的语音分类率和运行效率优于保留全部维数得到的语音分类率和运行效率。通过本文的研究,对MFCC参数进行一系列的预处理和用平均影响值方法对MFCC参数进行降维后,得到MFCC特征参数更稳健、鲁棒性能更强。而且只有核函数选择准确、参数选择合适,SVM的分类能力才会最优。
【关键词】:说话人识别 语音预处理 Mel频率倒谱系数 支持向量机 平均影响值
【学位授予单位】:陕西师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.34
【目录】:
- 摘要3-5
- Abstract5-9
- 第1章 绪论9-15
- 1.1 说话人识别的研究进展9-11
- 1.1.1 国外研究状况9-10
- 1.1.2 国内研究状况10-11
- 1.2 说话人识别概述11-12
- 1.2.1 说话人识别的概念11
- 1.2.2 说话人识别的分类11-12
- 1.2.3 说话人识别的系统结构12
- 1.2.4 说话人识别的优势与应用前景12
- 1.3 本文的主要工作12-13
- 1.4 论文的结构安排13-15
- 第2章 说话人识别系统15-31
- 2.1 语音信号预处理15-18
- 2.1.1 采样15-16
- 2.1.2 量化16
- 2.1.3 预加重处理16-17
- 2.1.4 分帧和加窗17-18
- 2.2 MFCC特征介绍18-20
- 2.2.1 MFCC参数的提取过程18-20
- 2.2.2 Mel频率与线性频率的关系20
- 2.3 统计学习理论初步20-22
- 2.4 支持向量机的基本理论22-27
- 2.4.1 线性可分问题22-25
- 2.4.2 线性不可分问题25-26
- 2.4.3 非线性分类问题26-27
- 2.4.4 多分类问题27
- 2.5 核函数类型27-28
- 2.6 参数寻优28-31
- 2.6.1 网格算法29
- 2.6.2 交叉验证法29-31
- 第3章 预处理分析及SVM模型选择分析31-43
- 3.1 实验环境与语音数据库31
- 3.2 实验目的与方法31-32
- 3.3 语音预处理影响32-37
- 3.3.1 语音分帧影响32-34
- 3.3.2 预加重系数影响34-35
- 3.3.3 采样频率影响35-36
- 3.3.4 Mel滤波器的个数影响36-37
- 3.4 归一化MFCC参数分析37-39
- 3.5 前几组MFCC参数分析39-40
- 3.6 SVM模型选择分析40-42
- 3.6.1 核函数类型影响40-41
- 3.6.2 核参数影响41-42
- 3.7 本章小结42-43
- 第4章 平均影响值研究43-57
- 4.1 实验目的与方法43
- 4.2 平均影响值介绍43-44
- 4.3 平均影响值选取分析44-47
- 4.4 重组MFCC参数下的语音分类47-53
- 4.5 采用MIV的优势53-55
- 4.6 本章小结55-57
- 第5章 总结与展望57-59
- 5.1 论文工作总结57-58
- 5.2 下一步工作展望58-59
- 参考文献59-65
- 致谢65-67
- 攻读学位期间的研究成果67
【引证文献】
中国重要会议论文全文数据库 前1条
1 迟惠生;;自动发音人识别——一个需要努力探索的领域[A];IEEE北京分会第一届学术年会论文集[C];1987年
,本文编号:941574
本文链接:https://www.wllwen.com/kejilunwen/wltx/941574.html