基于深度学习的说话人识别方法的研究
发布时间:2017-06-20 17:06
本文关键词:基于深度学习的说话人识别方法的研究,由笔耕文化传播整理发布。
【摘要】:随着人类社会的发展,人们之间的交互方式越来越多样化,语音信息做为人类特有的生物特征之一,在人类的身份识别或确认上有着重要的地位,有些研究者称之为人类最天然的生物特征。说话人识别技术或者说声纹识别技术是一种依据人类的语音特征进行的身份识别技术。其在很多领域已经有了非常重要的应用,比如互联网、军事安全、远程控制、通信系统、门禁系统等等。自上世纪80年代以来,神经网络迅猛发展。最近几年,多伦多大学教授辛顿提出的深度学习理论在图像识别领域已经取得了非常好的效果,其在mnist手写字数据集上的识别率已经可以高达百分之99。深度学习是一种基于深度即多层神经网络的学习方式,与传统的神经网络相比,深度学习克服了非凸函数陷入局部最小值的缺点,并且可以从底向上学习更好的特征。本文对前馈神经网络、自动编码机、深度信念网络在说话人识别技术上的应用进行了全面分析比较。本人主要完成了以下几方面工作:第一,综述了说话人识别技术的研究历史及现状,分析不同说话人识别技术的优缺点,神经网络和深度学习是说话人识别的崭新方向。第二,研究了说话人识别模型语音预处理阶段的工作,包括分帧、梅尔倒谱频率参数、模型和算法等,详细介绍了MFCC参数的计算过程。第三,探讨了前馈神经网络在说话人识别技术上的应用,分析比较了不同神经层数及神经元个数以及其他参数对识别率的影响,并且提出前馈神经网络与高斯混合模型结合的方法,使神经网络工作在GMM的概率输出空间,获取了不同说话人之间的交互信息,提高了说话人识别率以及模型的鲁棒性。第四,分析了深度学习在说话人识别上的应用。主要分析比较了两种深度学习模型,即自动编码机和深度信念网络的识别效果。证明了深度学习在说话人识别领域是优于普通的前馈神经网络的。首次提出使用降噪自动编码机和受限波尔兹曼机混合模型(HDAE-RBMM)进行说话人识别,研究了其在不同组合状态下模型的性能,证明了使用降噪自动编码机作为浅层模型、受限波尔兹曼机作为深层模型结合了两者的优势,可以有效提高识别率,并且随着网络层数的提升效果越明显。第五,使用整流线性单元代替普通的激活函数对深度网络进行了改进,分别探讨了预训练和未经预训练的情况下深度模型的性能,实验证明使用整流线性单元的深度网络模型可以极大提升训练速度,并且从稀疏度的角度来看,使用整流线性单元的未经预训练的深度网络可以达到和经过预训练的深度模型同样的稀疏度,因而其识别率比使用sigmoid类函数要高许多,甚至可以和经过预训练的深度模型较接近。但是整流线性单元与预训练模型结合的效果并不是十分理想,如何调整预训练模型结构与整流线性单元结合值得后续研究。
【关键词】:说话人识别 神经网络 自动编码机 深度信念网络 深度学习
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34;TP181
【目录】:
- 摘要5-6
- Abstract6-14
- 第一章 绪论14-20
- 1.1 说话人识别概述14-15
- 1.1.1 说话人识别研究的意义14
- 1.1.2 说话人识别的分类14-15
- 1.2 说话人识别的研究历史和现状15-17
- 1.3 神经网络和深度学习17-18
- 1.4 本文组织结构18-20
- 第二章 说话人识别模型和原理20-28
- 2.1 语音的声学模型20-21
- 2.2 说话人识别系统结构21-22
- 2.3 语音预处理22-23
- 2.4 语音特征提取23-25
- 2.5 常用的模型和算法25-27
- 2.5.1 模板匹配算法25-26
- 2.5.2 概率模型算法26
- 2.5.3 神经网络和支持向量机26-27
- 2.6 目前说话人识别存在的问题27
- 2.7 本章小结27-28
- 第三章 基于前馈神经网络的说话人识别研究28-42
- 3.1 神经网络的发展历史28-29
- 3.1.1 神经网络的研究背景28
- 3.1.2 神经网络的优势28-29
- 3.2 神经网络模型29-33
- 3.2.1 神经网络的基本概念29
- 3.2.2 神经元29-31
- 3.2.3 拓扑结构31-32
- 3.2.4 神经网络的学习方式和学习规则32-33
- 3.2.5 神经网络应用于说话人识别的优点33
- 3.3 BP神经网络33-35
- 3.3.1 前馈神经网络模型33-34
- 3.3.2 前馈计算34
- 3.3.3 BP算法34-35
- 3.4 BP算法的缺陷35-36
- 3.5 基于GMM和神经网络混合模型的说话人识别36-41
- 3.6 本章小结41-42
- 第四章 基于深度学习的说话人识别研究42-66
- 4.1 深度学习基本理论42-46
- 4.1.1 深度学习发展历程42-43
- 4.1.2 深度学习基本模型分类43-44
- 4.1.3 深度学习的应用44-45
- 4.1.4 深度学习的优势及存在的问题45-46
- 4.2 自动编码机46-54
- 4.2.1 自动编码机的原理和结构46-49
- 4.2.2 稀疏性条件及降噪自编码49-51
- 4.2.3 Softmax分类器51-52
- 4.2.4 栈式自编码和微调52-54
- 4.3 深度信念网络54-60
- 4.3.1 受限玻尔兹曼机54-58
- 4.3.2 吉布斯采样58
- 4.3.3 对比散度算法58-59
- 4.3.4 逐层贪婪训练及微调59-60
- 4.4 基于改进深度网络的说话人识别60-65
- 4.4.1 基于降噪自编码和受限玻尔兹曼机混合模型的说话人识别60-61
- 4.4.2 基于使用整流线性单元深度网络模型的说话人识别61-65
- 4.5 本章小结65-66
- 第五章 实验与分析66-82
- 5.1 数据库66
- 5.2 系统结构66-67
- 5.3 实验平台67-68
- 5.3.1 判别方法67-68
- 5.4 实验结果及分析68-81
- 5.4.1 神经网络实验及分析68-75
- 5.4.2 深度学习模型实验及分析75-81
- 5.5 本章小结81-82
- 第六章 总结与展望82-84
- 参考文献84-88
- 攻读硕士学位期间发表的论文88
【参考文献】
中国期刊全文数据库 前1条
1 马志友,杨莹春,吴朝晖;二次特征提取及其在说话人识别中的应用[J];电路与系统学报;2003年02期
本文关键词:基于深度学习的说话人识别方法的研究,,由笔耕文化传播整理发布。
本文编号:466282
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/466282.html