噪声环境下的说话人识别技术
发布时间:2017-05-25 18:21
本文关键词:噪声环境下的说话人识别技术,由笔耕文化传播整理发布。
【摘要】:语音是人与人之间交流最直接且最有效的途径之一。语音在承载信息的同时,还包含了说话人的个性特征。说话人识别技术就是依据语音信号中能够代表说话人个性特征的参数来识别话者身份的技术。在过去的几十年里,说话人识别技术取得了很大的发展和进步。而阻碍说话人识别技术进一步走向实用的主要障碍,则是各种实际应用场景中的噪声。这些噪声极大地降低了系统的识别性能,影响了说话人识别技术的应用和推广。本文主要研究了在噪声环境下的说话人识别问题。论文主要对端点检测、信号空间的抗噪技术、特征空间的抗噪技术等方面进行了研究。本文主要研究工作包括以下几个方面:(1)低信噪比下的端点检测技术研究,首先介绍了在噪声环境下表现效果较好的两种端点检测方法:基于C0复杂度的端点检测算法、基于MFCC相似度的端点检测算法;然后在二者的基础上研究了一种新的端点检测算法:基于改进C0复杂度和MFCC相似度相结合的端点检测算法;最后对三种端点检测算法进行实验分析,证明了改进算法性能优良、稳定性更高。(2)信号空间的抗噪技术研究,首先介绍了常规的信号空间抗噪方法:谱减法、维纳滤波法、基于先验信噪比的维纳滤波法;然后在先验信噪比的维纳滤波法基础上增加端点检测环节:将基于MFCC相似度的端点检测融入到维纳滤波法中;最后对几种算法在不同信噪比环境下进行对比实验,验证了改进算法的识别性能。(3)特征空间的抗噪技术研究,首先介绍了几种常用的鲁棒性特征:梅尔频率倒谱系数及感知线性预测系数,并对上述两种特征分别进行改进;然后,对改进后的两个特征进行融合;最后,对改进前后的几种特征参数做对比实验,验证了新的特征参数具有更高的识别性能。
【关键词】:说话人识别 端点检测 去噪技术 感知线性预测 梅尔频率倒谱系数
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.34
【目录】:
- 摘要3-4
- Abstract4-9
- 1 绪论9-19
- 1.1 引言9
- 1.2 研究背景与意义9-11
- 1.3 说话人识别的发展11-12
- 1.4 说话人识别系统概述12-15
- 1.4.1 说话人识别的分类和基本组成12-13
- 1.4.2 说话人识别的特征选取13-14
- 1.4.3 说话人识别的主要方法14-15
- 1.5 噪声环境下的说话人识别研究现状及难点15-18
- 1.5.1 噪声的分类及影响16
- 1.5.2 噪声环境下说话人识别的基本方法16-18
- 1.5.3 噪声环境下的研究难点18
- 1.6 本文的组织结构安排18-19
- 2 说话人识别基本原理19-34
- 2.1 语音信号预处理19-24
- 2.1.1 语音信号的预加重19-20
- 2.1.2 语音信号的分帧和加窗20-22
- 2.1.3 语音信号的端点检测22-24
- 2.2 语音信号特征参数的提取24-30
- 2.2.1 线性预测系数LPC25-26
- 2.2.2 线性预测倒谱系数LPCC26-27
- 2.2.3 梅尔频率倒谱系数MFCC27-28
- 2.2.4 感知线性预测倒谱系数PLPC28-30
- 2.3 高斯混合模型GMM30-33
- 2.3.1 GMM模型的基本概念30-31
- 2.3.2 GMM模型的参数估计31-32
- 2.3.3 GMM模型参数初始化32
- 2.3.4 GMM模型的识别问题32-33
- 2.4 本章小结33-34
- 3 语音信号的端点检测技术及其改进34-41
- 3.1 基于CO复杂度的端点检测34-35
- 3.2 基于MFCC相似度的端点检测35-36
- 3.3 基于改进C0复杂度和MFCC相似度相结合的端点检测36
- 3.4 三种端点检测算法的对比实验36-40
- 3.4.1 实验准备36
- 3.4.2 实验结果分析36-40
- 3.4.3 实验小结40
- 3.5 本章小结40-41
- 4 信号空间抗噪技术的改进及对识别性能的影响41-56
- 4.1 谱减法41-43
- 4.1.1 基本谱减法41-42
- 4.1.2 基本谱减法的改进42-43
- 4.2 维纳滤波法43-45
- 4.2.1 传统的维纳滤波法43-44
- 4.2.2 基于先验信噪比估计的维纳滤波法44-45
- 4.3 改进的维纳滤波法45-46
- 4.4 语音增强方法的性能评价标准46-47
- 4.4.1 信噪比46-47
- 4.4.2 失真测度47
- 4.5 语音增强算法的抗噪性能对比试验47-52
- 4.5.1 实验准备47
- 4.5.2 实验分析47-52
- 4.5.3 实验小结52
- 4.6 语音增强算法的识别性能对比实验52-55
- 4.6.1 实验准备53
- 4.6.2 实验分析53-54
- 4.6.3 实验小结54-55
- 4.7 本章小结55-56
- 5 特征空间抗噪技术的改进及对识别性能的影响56-64
- 5.1 梅尔频率倒谱系数的相关参数及改进56-58
- 5.1.1 MFCC参数56
- 5.1.2 MFCC参数的扩展及改进56-58
- 5.2 PLPC参数的扩展及改进58-60
- 5.2.1 感知线性预测系数PLPC58
- 5.2.2 感知对数面积比PLAR58-60
- 5.2.3 改进的感知对数面积比mPLAR60
- 5.3 mMFCC_D_D与mPLAR的特征融合60-62
- 5.3.1 串行特征融合61
- 5.3.2 主成份分析(PCA)61-62
- 5.4 特征参数的识别性能对比实验62-63
- 5.4.1 实验准备62
- 5.4.2 说话人识别率对比分析62-63
- 5.4.3 实验小结63
- 5.5 本章小结63-64
- 6 总结及展望64-65
- 致谢65-66
- 参考文献66-69
- 附录69
【参考文献】
中国期刊全文数据库 前1条
1 李晔;崔慧娟;唐昆;;基于谱减的语音增强算法的改进[J];清华大学学报(自然科学版);2006年10期
中国博士学位论文全文数据库 前1条
1 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年
中国硕士学位论文全文数据库 前2条
1 唐娜娜;基于稳健性PLPC的抗噪语音识别方法的研究[D];辽宁大学;2011年
2 刘明娟;基于改进的特征参数的说话人识别研究[D];东北大学;2010年
本文关键词:噪声环境下的说话人识别技术,由笔耕文化传播整理发布。
,本文编号:394631
本文链接:https://www.wllwen.com/kejilunwen/wltx/394631.html
教材专著