基于深度学习的说话人识别系统的设计与实现
发布时间:2017-10-04 15:03
本文关键词:基于深度学习的说话人识别系统的设计与实现
更多相关文章: 说话人识别 深度学习 梅尔倒谱系数 深度信念网络
【摘要】:说话人识别是根据说话人提供的语音信号的特性来自动识别说话人身份的一种技术。作为一种生物认证技术,它具有用户的接受度高、所需的设备成本低以及便于移植等优势,相对于其他的技术,它体现了更方便、经济和安全的特点,因此被广泛应用到网络、国防系统及科研等领域,从而使说话人识别技术具有普遍的使用价值和重要意义。说话人识别系统的终极目标是使人与机器之间能够像人与人之间一样自如地交流。首先,本文对说话人识别的基本原理和识别系统的结构以及实现的过程进行了简单的介绍,分析了说话人识别系统中常用的主流特征参数—梅尔倒谱系数(MFCC),还在借助MFCC的基础上描述了高斯混合模型(GMM)的说话人识别的过程;其次,对于本文需要做的工作所用到的理论背景知识—深度学习理论中的深度信念网络系统做出了充分而详细的介绍,深度信念网络可以弥补浅层学习附有的学习不充分和网络的深度不足的缺点,因此被广泛地运用到模式的识别和目标的检测等诸多领域内,本文就是在深度信念网络的基础上来实现的说话人识别;最后,在Matlab软件上对实验的结果进行仿真性的模拟。因为梅尔倒谱系数(MFCC)在反映人耳的听觉特性上表现出别具一格的优势,所以本文选用了MFCC作为待识别说话人的语音信号的特征参数,并把它作为系统模型训练和识别的输入向量。本文的说话人识别系统是借助深度学习的相关算法得以实现的,实验结果表明了基于深度学习的说话人识别系统有很好的可行性。
【关键词】:说话人识别 深度学习 梅尔倒谱系数 深度信念网络
【学位授予单位】:黑龙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
- 中文摘要4-5
- Abstract5-8
- 第1章 绪论8-18
- 1.1 说话人识别的背景和研究意义8-13
- 1.1.1 说话人识别技术的研究背景8-9
- 1.1.2 说话人识别研究的意义9-13
- 1.2 说话人识别技术研究的现状13-14
- 1.3 说话人识别技术的应用14-16
- 1.4 论文的组织结构16-18
- 第2章 语音信号的特征参数的分析及提取18-35
- 2.1 说话人识别模型18-25
- 2.1.1 说话人语音信号产生的原理18-22
- 2.1.2 说话人识别的模型种类22-25
- 2.2 语音信号的预处理介绍25-30
- 2.2.1 语音信号预加重处理25-26
- 2.2.2 语音端点检测26-29
- 2.2.3 语音信号的降噪处理29-30
- 2.3 说话人特征参数的分析和提取30-32
- 2.3.1 MFCC的分析30-31
- 2.3.2 MFCC的提取流程31-32
- 2.4 MFCC在高斯混合模型上的说话人识别32-34
- 2.5 本章小结34-35
- 第3章 深度学习的基本理论35-42
- 3.1 深度学习的深度35-36
- 3.2 深度学习的动机36-37
- 3.3 深度学习的示意图37-38
- 3.4 深度学习的背景和发展38-41
- 3.5 本章小结41-42
- 第4章 基于深度学习的说话人识别42-50
- 4.1 引入RBM42-43
- 4.2 说话人识别用到的深度学习算法43-48
- 4.3 基于深度学习的说话人识别系统的实现48-49
- 4.4 本章小结49-50
- 第5章 说话人识别系统的实验50-59
- 5.1 实验的前提条件50-51
- 5.1.1 实验的软硬件环境50
- 5.1.2 语音信号的采集50-51
- 5.1.3 说话人识别系统识别率的计算51
- 5.2 基于深度学习的说话人识别系统性能的验证51-58
- 5.2.1 测试选取不同的语音单位长度对系统识别率的影响53-55
- 5.2.2 测试选取不同的语音特征参数对说话人识别系统性能的影响55-56
- 5.2.3 测试不同的输出层神经元的个数对系统性能的影响56-58
- 5.3 本章小结58-59
- 结论59-61
- 参考文献61-68
- 致谢68
本文编号:971289
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/971289.html