基于深度学习的与文本无关话者确认研究
本文关键词:基于深度学习的与文本无关话者确认研究,由笔耕文化传播整理发布。
【摘要】:随着科学技术的不断进步,电话已经成为人们日常生活中不可或缺的一部分。在身份认证技术研究领域,越来越多的研究人员开始关注如何使用电话语音进行身份认证,因为相对于其它身份认证技术来说,使用电话语音进行身份认证所需的设备简单、成本低、易获取,更重要的是在使用电话语音进行身份认证的过程中,用户不需要接触设备,只需要简单的说一句话,便可完成认证,大大提高了用户的接受率。另外,说话人确认技术还是语音识别技术研究领域的一个重要研究方向,所以说话人确认技术的研究不仅具有重要的理论研究意义而且还具有广泛的应用前景。目前在说话人确认研究领域中,主流的说话人建模方法都是基于概率统计模型的,其中最具代表性的概率统计说话人模型当属高斯混合模型(Gaussian Mixture Model, GMM)。高斯混合模型采用非常多的高斯概率密度函数分量,对说话人的语音特征分布进行了较好的描述,从而取得了不错的效果:但说话人确认是一个二元分类问题,而高斯混合模型只是一种概率生成性模型,其区分能力非常有限,所以需要寻找同时具有强大表征能力和很强区分能力的模型进行说话人建模。近年来,深度学习(Deep Learning,,DL)理论在模式识别领域掀起了一股非常大的研究热潮,其出发点是想构建一个复杂的神经网络模型来模拟人脑的思维方式,然后对数据进行分析和处理。目前深度学习理论所依托的实现载体是深度神经网络(Deep Neural Network, DNN)。深度神经网络凭借多隐层的结构特点,使得其具有很好的表征能力和区分能力,目前在模式识别的诸多研究方向都取得了成功应用。本文主要研究内容就是将具有强大表征能力及区分能力的深度神经网络应用于说话人确认系统中进行说话人建模,构建基于深度神经网络的话者确认系统,针对建模过程中深度神经网络输入特征的选择、网络结构以及网络训练方法等关键问题进行了深入的研究,并对多种基于深度神经网络的说话人确认系统的结构及性能进行对比。首先,介绍了目前说话人确认技术研究领域最为经典的概率统计模型——高斯混合模型,并对其原理进行了详细阐述。针对其应用于说话人确认系统中使用的GMM-UBM结构进行了深入的讨论,并对GMM-UBM说话人模型训练过程中使用的MAP算法进行介绍,然后通过实验分析了混合度的选取对GMM-UBM说话人确认系统整体性能的影响,同时构建了本文研究所需的基线系统。接着,对深度神经网络相关内容展开了讨论,介绍了深度神经网络的发展历程,详细阐述了深度神经网络的原理及其训练算法,并对深度神经网络在训练过程中常出现的问题进行了重点讨论。本文针对基于GMM-UBM的说话人模型区分能力差,表征能力不足等问题,引入了深度神经网络进行说话人建模,构建了基于DNN-SPK说话人确认系统。为了进一步的减弱语音倒谱中语义信息的干扰,采用GMM对语音的原始倒谱特征进行聚类变换,抽取原始倒谱特征的统计特征参数,从而进一步突显说话人的个性信息,然后将其与深度神经网络相结合,构建基于GMM-DNN说话人确认系统,大大提高了确认的效果。最后,语音作为一种时序信号,当前时刻的信息在一定程度上是受其历史信息影响的。采用DNN进行说话人建模时,DNN对语音历史信息的记忆是非常有限的,所以引入了能够记住长历史信息的长短时记忆(Long Short Term Memory,LSTM)模型,构建了基于LSTM-SPK说话人确认系统,针对采用LSTM进行说话人建模过程中,模型结构的选择以及如何选取输入特征参数和输出说话人标签等关键问题进行详细讨论。另外,针对LSTM计算复杂度比较高的问题,探讨了采用LSTMP模型替换LSTM模型进行说话人建模的策略,最终使得话者确认系统的性能获得了明显的提升。
【关键词】:说话人确认 高斯混合模型 深度学习 深度神经网络 长短时记忆模型
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
- 摘要5-7
- ABSTRACT7-13
- 第一章 绪论13-25
- 1.1 引言13
- 1.2 说话人确认研究概述13-16
- 1.2.1 说话人确认研究的意义14
- 1.2.2 说话人确认的发展和现状14-16
- 1.2.3 说话人确认的分类16
- 1.3 说话人确认系统总体框架16-21
- 1.3.1 前端处理17-19
- 1.3.2 说话人建模19-20
- 1.3.3 评估准则20-21
- 1.4 论文的主要研究内容21-25
- 第二章 基于概率统计模型的说话人确认25-41
- 2.1 概述25-26
- 2.2 贝叶斯决策理论26-28
- 2.3 高斯混合模型28-33
- 2.3.1 高斯混合模型概述28
- 2.3.2 高斯混合模型的结构28-30
- 2.3.3 高斯混合模型的参数估计30-33
- 2.4 基于GMM-UBM的说话人确认33-37
- 2.4.1 GMM-UBM系统结构33-34
- 2.4.2 MAP自适应算法34-37
- 2.5 实验结果与分析37-39
- 2.5.1 实验语音库37
- 2.5.2 语音预处理37-38
- 2.5.3 特征提取38-39
- 2.5.4 混合度的影响39
- 2.6 本章小结39-41
- 第三章 深度学习的基本理论41-59
- 3.1 概述41
- 3.2 神经网络发展历程41-42
- 3.3 深度神经网络结构42-45
- 3.4 DNN参数估计45-49
- 3.5 DNN训练中常见问题49-56
- 3.5.1 数据预处理50-51
- 3.5.2 模型初始化51-54
- 3.5.3 权值衰减策略54-55
- 3.5.4 Momentum策略55
- 3.5.5 Dropout策略55-56
- 3.6 DNN隐藏层的作用56-58
- 3.7 本章小结58-59
- 第四章 基于DNN的说话人确认59-69
- 4.1 引言59
- 4.2 基于DNN-SPK的说话人确认59-65
- 4.2.1 DNN作为特征提取器60-61
- 4.2.2 注册和测试61-62
- 4.2.3 实验与分析62-65
- 4.3 基于GMM-DNN的说话人确认65-68
- 4.3.1 系统结构65-66
- 4.3.2 注册和测试66-67
- 4.3.3 实验与分析67-68
- 4.4 本章小结68-69
- 第五章 基于LSTM的说话人确认69-83
- 5.1 引言69
- 5.2 RNN的简单介绍69-73
- 5.2.1 单向RNN70-71
- 5.2.2 双向RNN71-73
- 5.3 LSTM73-78
- 5.3.1 网络结构74-75
- 5.3.2 网络训练75-77
- 5.3.3 改进型LSTM77-78
- 5.4 基于LSTM的说话人确认78-81
- 5.4.1 系统结构78-79
- 5.4.2 注册和测试79
- 5.4.3 实验与分析79-81
- 5.5 本章小结81-83
- 第六章 总结与展望83-85
- 参考文献85-89
- 致谢89-91
- 在读期间发表的学术论文与取得的研究成果91
【相似文献】
中国期刊全文数据库 前10条
1 郭伟;李辉;许敏强;刘青松;;基于高维空间映射失配补偿方法的说话人确认[J];中国科学技术大学学报;2010年02期
2 张怡颖,朱小燕,张钹;一种新的说话人确认方法[J];软件学报;1999年04期
3 翁武斌,方棣棠;应用分段辨认序列频度信息的说话人确认方法[J];中文信息学报;2000年05期
4 文学,刘加,刘润生;一种改进的新型说话人确认算法[J];清华大学学报(自然科学版);2003年01期
5 陈继旭;刘明辉;戴蓓劏;李辉;;文本无关说话人确认中的一种新的评分规整方法[J];信号处理;2006年04期
6 刘明辉;戴蓓劏;解焱陆;;基于GMM多维概率输出的SVM话者确认[J];模式识别与人工智能;2008年01期
7 解焱陆;刘青松;戴蓓劏;李辉;;一种用于鲁棒性说话人确认的分段概率分布参数规整方法[J];电路与系统学报;2008年06期
8 郭武;李轶杰;戴礼荣;王仁华;;采用非监督得分规整和因子分析的说话人确认[J];电子学报;2009年04期
9 许东星;戴蓓劏;许敏强;刘青松;;声母发声特点参数的提取及其提高说话人确认鲁棒性的研究[J];信号处理;2009年09期
10 陈存宝;赵力;;嵌入时延网络的高斯混合背景模型说话人确认[J];信号处理;2010年04期
中国重要会议论文全文数据库 前10条
1 吴玺宏;迟惠生;;一种高性能的限定文本说话人确认系统[A];第三届全国人机语音通讯学术会议论文集[C];1994年
2 洪青阳;陈毅东;;一种用于说话人确认的区别性训练方法[A];第八届全国人机语音通讯学术会议论文集[C];2005年
3 许云飞;黄厚军;金怡珠;李桂莲;周若华;;基于PLDA的“一对多”下的说话人确认方法研究[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
4 展领;景新幸;;矢量量化和VQ-UBM在说话人确认中的应用[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年
5 赵贤宇;董远;张雪峰;杨浩;王海拉;;说话人确认系统中基于高斯混合分布相似度选择TNorm背景模型的研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
6 赵亚丽;付中华;谢磊;张健;张艳宁;;双麦克风语音增强和杂混模型训练相结合的顽健说话人确认[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 杨艺敏;景新幸;杨海燕;;PSO-SVM在说话人确认系统中的研究[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年
8 张涛;王岚;迟惠生;;基于VQ的说话人确认系统的硬件实现[A];第六届全国人机语音通讯学术会议论文集[C];2001年
9 尹聪;白静;龚[
本文编号:290714
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/290714.html