语种识别深度学习方法研究
发布时间:2017-10-09 05:22
本文关键词:语种识别深度学习方法研究
更多相关文章: 语种识别 全差异建模 深度瓶颈特征 深度学习 最大互信息 特征学习 深度神经网络 循环神经网络
【摘要】:语种识别(Language Identification, LID)是指自动判定给定语音段语言种类的过程。伴随着国际化趋势的日益深入,语种识别技术在多语言语音处理系统中的作用也越来越重要,业已成为多语言智能语音技术的不可或缺的关键组成部分之一。经过近五十余年的发展,对语种识别的研究取得了长足的进步,在某些特定任务下长时语音段的语种识别性能甚至超过了人工识别的结果。然而,现有语种识别系统的性能仍然不能满足日益增长的需求,尤其是面对短时语音段语种识别以及高混淆度的语言识别任务时。这主要是由于语言信息属于语音信号中的弱信息,隐藏在语音信号中,需要通过对语音中的信息进行提取和分析才能进行判定。判决结果的好坏强烈地依赖于语音信息段中的相关统计信息,而在短时语音段和高混淆语言任务中,现有方法对这些统计信息的估计缺乏鲁棒性。面对上述挑战,如何提取更适用于语种识别的特征以及提升模型的非线性分类能力是当前的研究重点。 近年来,深度学习(Deep Learning)理论在诸多机器学习领域都取得了成功的应用,引起了学界和产业界的广泛关注。由于其模型具有深度非线性结构特性,深度学习模型具有较强的深层信息抽取和非线性建模能力。本文主要围绕深度学习在语种识别中的应用,从特征提取和模型构建两方面展开研究,主要包括以下内容: 首先,本文提出了基于深层神经网络(Deep Neural Network, DNN)提取音素相关深瓶颈特征(Deep Bottleneck Feature, DBF)的语种识别方法。该特征通过训练一个音素状态相关的带有瓶颈层的深度神经网络,然后将底层声学特征通过神经网络,在深瓶颈层得到输出即为相应的DBF特征。该DBF特征能够有效的抑制底层声学特征中的语种无关噪声,特别是信道差异、说话人差异、背景噪声差异等噪声因素,并且能够将底层声学特征与具有物理意义的底层声学单元对应起来。实验结果表明,利用DBF特征结合全差异建模(Total Variability, TV)的语种识别方法DBF-TV,能够有效的提升语种识别的性能,特别是极大的改善了易混语种和方言、短时语音的语种识别性能。鉴于DBF特征的提取是基于特定语种的音素状态DNN网络而实现,本文还提出了基于不同语言音素状态任务的DNN提取不同语种相关DBF的并行语种识别方法,该方法能够融合语音信号在不同声学单元集合下呈现的语种差异,进一步提升语种识别的性能。 其次,在DBF特征的基础上,本文提出了融合语种信息的区分性DBF特征(Discriminative DBF, D2BF)学习方法。该方法将基于音素的深度瓶颈提取网络作为初值,通过区分性的最大互信息准则(Maximum Mutual Information, MMI)结合高斯混合模型(Gaussian Mixture Model, GMM)将语种分类任务直接与DBF特征的提取过程建立联系,利用梯度下降法对网络参数进行调整,从而实现语种任务相关的特征学习过程。实验表明,较DBF特征而言,基于该方法提取的D2BF特征更加适用于语种识别任务,特别是在后端类差异补偿模型不容易实现的情景下,该特征能够有效的提升系统的性能。 再次,在模型域层面,本文提出了基于DNN的DBF-TV模型的改进方法。该方法在对混合高斯模型进行参数估计时,利用DNN的区分性分类能力,将语种识别的数据按照音素状态进行聚类从而得到GMM模型估计时的相关统计量。在该模型中,每个高斯成分直接对应于某一个音素状态。实验表明,基于区分性GMM模型的DBF-TV系统能够进一步提升系统的性能。 最后,本文对利用深度学习模型直接进行语种识别建模进行了一定的探索。由于语种信息的隐藏特性,对语音段的整体分析才能反应出语种特性,因此逐帧构建深度学习模型时容易损失掉语音信号的时序关系。本文主要比较了基于前馈方式的深度神经网络(DNN)结构和基于隐层循环的循环神经网络(Recurrent Neural Network, RNN)结构。实验表明,较前馈神经网络而言,利用RNN对语音信号的时序结构进行建模方法在语种识别领域中有着显著的优势。
【关键词】:语种识别 全差异建模 深度瓶颈特征 深度学习 最大互信息 特征学习 深度神经网络 循环神经网络
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TN912.34
【目录】:
- 摘要5-7
- ABSTRACT7-9
- 目录9-12
- 表格索引12-13
- 插图索引13-15
- 算法索引15-16
- 主要符号对照表16-18
- 第一章 绪论18-34
- 1.1 语种识别简介18-24
- 1.1.1 语种识别系统框架19-20
- 1.1.2 语音中可区分语种的特征20-24
- 1.2 语种识别研究现状24-26
- 1.2.1 基于音素识别器的语种识别方法24-25
- 1.2.2 基于底层声学特征的语种识别方法25-26
- 1.3 本文的研究背景26-29
- 1.4 本文采用的数据集及性能评测标准29-30
- 1.4.1 测试数据集介绍29-30
- 1.4.2 性能评测标准介绍30
- 1.5 本文的主要内容及组织架构30-34
- 1.5.1 本文的主要内容30-31
- 1.5.2 本文的组织架构31-34
- 第二章 语种识别方法综述34-54
- 2.1 基于音素识别器的语种识别方法35-40
- 2.1.1 PRLM语种识别方法36-38
- 2.1.2 PRSVM语种识别方法38-39
- 2.1.3 基于PPR的语种识别方法39
- 2.1.4 基于其它识别单元的语种识别方法39-40
- 2.2 基于底层声学特征的语种识别方法40-50
- 2.2.1 SDC特征41-42
- 2.2.2 GMM-UBM语种识别方法42-44
- 2.2.3 GMM-MMI语种识别方法44-45
- 2.2.4 GSV-SVM语种识别方法45-46
- 2.2.5 基于因子分析的语种识别方法46-50
- 2.3 基于其他特征的语种识别方法50-52
- 2.3.1 基于韵律特征的语种识别方法50-51
- 2.3.2 基于PLLR特征的语种识别方法51-52
- 2.4 小结52-54
- 第三章 音素相关深瓶颈特征54-76
- 3.1 深度学习理论55-56
- 3.2 基于音素状态的特征学习56-57
- 3.3 带有瓶颈层的DNN训练及特征提取57-62
- 3.3.1 基于RBM模型的预训练58-61
- 3.3.2 精细调整61-62
- 3.3.3 深瓶颈特征的提取62
- 3.4 基于DBF语种识别系统62-63
- 3.5 实验63-74
- 3.5.1 DBF特征转换函数训练参数63-64
- 3.5.2 DBF与传统SDC特征的性能对比64-67
- 3.5.3 ivector流形分布67-68
- 3.5.4 DBF特征参数的优化配置68-73
- 3.5.5 PDBF-TV实验分析73-74
- 3.6 小结74-76
- 第四章 融合语种信息的深瓶颈特征76-92
- 4.1 基于互信息的区分性训练准则77-79
- 4.1.1 互信息77-78
- 4.1.2 最大互信息准则78-79
- 4.2 基于MMI准则的GMM模型训练方法79-83
- 4.2.1 MMI准则下基于弱辅助函数的参数估计82-83
- 4.3 融合语种信息的深瓶颈特征提取器训练方法83-86
- 4.4 快速GMM计算方法86-88
- 4.5 实验88-91
- 4.5.1 模型域与特征域对比88
- 4.5.2 特征域与模型域的区分性训练结合88-90
- 4.5.3 D~2BF下的TV方法性能分析90-91
- 4.6 小结91-92
- 第五章 基于深度学习的语种建模方法92-108
- 5.1 基于DNN的TV建模方法改进93-101
- 5.1.1 DNN后验计算下的TV建模方法94-96
- 5.1.2 基于DBF的DNN-TV系统建模方法96-97
- 5.1.3 实验97-101
- 5.2 基于深度学习的直接建模方法探索101-107
- 5.2.1 循环神经网络101-104
- 5.2.2 基于DNN的语种识别方法104
- 5.2.3 实验104-107
- 5.3 小结107-108
- 第六章 总结108-112
- 6.1 本文的主要贡献108-109
- 6.2 后续的研究展望109-112
- 参考文献112-122
- 附录A GMM参数估计方法122-126
- 附录B TV模型参数估计及ivector提取方法126-130
- B.1 ivector的后验概率分布127-128
- B.2 GMM超矢量的后验概率分布128
- B.3 目标函数优化128-130
- 致谢130-134
- 在读期间发表的学术论文与取得的研究成果134-136
【参考文献】
中国博士学位论文全文数据库 前1条
1 鄢志杰;声学模型区分性训练及其在自动语音识别中的应用[D];中国科学技术大学;2008年
,本文编号:998374
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/998374.html