连续语音识别特征提取与声学模型训练区分性技术研究
发布时间:2017-04-24 19:06
本文关键词:连续语音识别特征提取与声学模型训练区分性技术研究,由笔耕文化传播整理发布。
【摘要】:倒谱特征和最大似然准则是传统连续语音识别系统广泛采用的特征提取和模型训练方法。然而,倒谱及其差分特征所获取的时间动态信息有限,且没有有效地利用模型间的分类混淆信息,使得特征的区分性不强;基于最大似然准则的模型训练方法没有考虑模型间的相互影响,通常需要在参数估计时引入假设条件,使其较难获得最佳的声学模型。区分性技术可以有效地缓解上述问题:区分性特征提取方法能够有效利用分类混淆信息进行长时特征的提取,提高特征的区分性和鲁棒性;声学模型区分性训练方法充分地考虑模型间的相互影响,专注于调整模型之间的决策面,能有效的降低错误率。本文主要研究连续语音识别区分性特征提取和声学模型区分性训练方法。对于区分性特征提取,本文从特征空间和模型空间两方面展开研究,取得了如下三个研究成果:(1)研究了基于特征空间的区分性特征提取,针对现有方法对分布复杂的数据识别性能不高的问题,提出了一种基于最小分类错误准则的线性判别分析方法。首先,采用非参数核密度估计方法进行数据概率分布估计;其次,根据得到的概率分布,在最小分类错误准则下,采用基于梯度下降的线性搜索算法求解判别分析变换矩阵;最后,利用判别分析变换矩阵对相邻帧梅尔滤波器组输出拼接的超矢量变换降维,得到时频特征。实验结果表明,新方法提取的时频特征能有效地提升识别准确率。(2)进一步,针对因数据不足而造成较难提取稳定长时特征的问题,提出了一种基于群稀疏约束的混合判别分析方法。首先,采用高斯混合模型描述数据的分布,在此基础上利用二次变分的形式进行群稀疏的表示,得到基于群稀疏约束的混合判别分析目标函数;其次,通过定义模糊响应矩阵(blurred response matrix),有效地结合最优化得分方法求解判别分析变换矩阵;最后,拼接相邻帧梅尔滤波器组输出组成超矢量,采用变换矩阵进行变换降维,提取时频特征。实验结果表明,在数据不足和噪声环境下,新方法能获得更高的识别性能。(3)研究了基于模型空间的区分性特征提取,为了提高基于分帧区分性特征变换的稳定性,将特征变换当成高维信号的稀疏逼近问题,提出了一种基于语音分段和压缩感知的区分性特征变换方法。首先,采用状态绑定的方法训练得到基于域划分的线性变换矩阵(Region Dependent Linear Transform, RDLT)和基于最小音素错误准则的特征变换矩阵(feature Minimum Phone Error, fMPE),将两者的特征变换矩阵构成过完备的字典,采用强制对齐的方式对语音信号进行分段;然后,以似然度最大化作为目标函数,采用匹配追踪算法对目标函数迭代优化,自动地确定各语音信号段中的变换矩阵及其系数,并引入相关度测量,去除相关的特征基矢量;接着,将得到的变换矩阵作为初值,在似然度目标函数中加入正则项,利用快速迭代收敛阈值算法进行求解;最后,融合基于帧特征变换后的瓶颈特征(Bottleneck, BN)进行声学模型的训练。实验结果表明,相比于传统的RDLT方法,新方法能有效地提升识别率,并且具有更好的抗噪声性能。对于声学模型区分性训练,本文从训练准则、训练数据选取、互补系统构造等三个方面展开研究,取得了如下三个研究成果:(4)研究了声学模型的区分性训练准则,提出了一种广义边距的区分性训练准则,将不同的区分性训练目标函数统一到一个理论框架下,并设计了两种新的区分性训练目标函数。通过分析不同区分性训练目标函数之间的关系,以最大互信息(Maximum Mutual Information, MMI)作为分离度量,把不同的区分性训练目标函数统一为基于广义边距的区分性训练准则;进一步在该广义边距准则下,通过对其权重函数进行讨论,得到两种区分性训练目标函数:利用组合增进因子和候选词路径中误识词个数,加权候选路径,得到软增进的最大互信息(Soft Boosted MMI, SBMMI)目标函数;利用基于单个候选词的后验概率定义每一训练语句的错误识别率,采用幂指数的形式对单个候选词动态加权,得到变权最大互信息(Variable Weighting MMI, VWMMI)目标函数。实验结果表明,SBMMI方法准确率高于软边距估计准则和增进的最大互信息方法,VWMMI方法能在SBMMI方法基础上得到进一步提高。(5)研究了声学模型区分性训练中的数据选取方法,为了选取对模型训练有效的数据,减少语音识别系统的运算量,提出了一种基于动态加权的数据选取方法。首先,采用后验概率的beam算法裁剪词图,在此基础上依据候选词的后验概率定义每一候选路径的错误率,基于错误率动态的赋予候选词不同的权值;其次,通过统计音素对之间的混淆程度,给易混淆音素对动态地加以不同的惩罚权重,计算音素准确率;然后,在估计得到弧段期望准确率分布的基础上,采用高斯函数形式对所有竞争弧段的期望音素准确率软加权;最后,联合后验概率和音素准确率选取数据。实验结果表明,动态加权方法识别准确率优于最小音素错误准则,同时能减少训练时间。(6)研究了区分性互补系统的构造方法,针对现有互补系统构造的理论性不强,互补系统间差异性描述不够精确的问题,在区分性训练的框架下,提出了一种基于混淆信息加权的区分性互补系统构造方法。首先,通过统计音素对的混淆信息,利用混淆信息给音素对加以不同的惩罚权重,分别以基线系统中的三个最优识别结果作为参考,计算混淆信息加权后的音素准确率,同时以正确的标注为参考计算标准的音素准确率;其次,通过同时最大化混淆信息加权后的音素准确率和最小化标准音素准确率,构建模型层互补系统;最后,通过结合RDLT特征变换过程构造特征层的互补系统。实验结果表明,该方法可以增大互补系统间的差异性,与互补最小音素错误准则相比,融合模型层互补系统后识别率得到了提高,同时融合特征层和模型层的互补系统识别率能获得最好的识别性能。
【关键词】:连续语音识别 声学模型 区分性训练 线性判别分析 特征变换 正则化方法 域划分 系统融合
【学位授予单位】:解放军信息工程大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TN912.3
【目录】:
- 摘要4-6
- ABSTRACT6-19
- 第一章 绪论19-39
- 1.1 研究背景及意义19-21
- 1.2 语音识别发展概述21-22
- 1.3 基于统计模型的语音识别系统22-30
- 1.3.1 特征提取23-24
- 1.3.2 声学模型24-28
- 1.3.3 语言模型28-29
- 1.3.4 词格译码29-30
- 1.4 区分性技术研究现状分析30-35
- 1.4.1 区分性特征提取研究现状分析30-32
- 1.4.2 区分性模型32
- 1.4.3 声学模型区分性训练研究现状分析32-35
- 1.5 论文主要工作及组织结构35-39
- 1.5.1 论文主要工作35-36
- 1.5.2 论文组织结构36-39
- 第二章 区分性技术基础39-55
- 2.1 贝叶斯风险39-40
- 2.2 最大似然准则40
- 2.3 传统的区分性训练准则40-43
- 2.3.1 最大互信息准则40-41
- 2.3.2 全面风险估计准则41
- 2.3.3 最小音素错误准则41-42
- 2.3.4 最小分类错误准则42-43
- 2.4 基于边距的区分性训练准则43-46
- 2.4.1 最大边距估计准则43-44
- 2.4.2 软边距估计准则44
- 2.4.3 基于强化混淆信息的区分性训练准则44-45
- 2.4.4 采用微积分形式的区分性目标函数统一表示45-46
- 2.5 区分性特征提取46-52
- 2.5.1 特征空间区分性特征提取46-50
- 2.5.2 模型空间区分性特征提取50-52
- 2.6 实验基线系统及性能评估52-54
- 2.6.1 实验语料库简介52
- 2.6.2 模型单元的选择与训练52-53
- 2.6.3 基线系统识别性能53-54
- 2.7 本章小结54-55
- 第三章 基于线性判别分析的特征空间区分性特征提取55-73
- 3.1 基于线性判别分析区分性特征提取的原理分析55-56
- 3.2 基于MCE准则的语音识别特征线性判别分析56-61
- 3.2.1 基于MCE准则特征变换的分类损失函数56-58
- 3.2.2 基于梯度下降法的变换矩阵求解58-60
- 3.2.3 基于MCE准则判别分析的特征参数提取60-61
- 3.3 基于群稀疏约束的语音识别特征混合判别分析61-65
- 3.3.1 基于二次变分形式的群稀疏线性判别分析61-64
- 3.3.2 群稀疏的混合判别分析64-65
- 3.3.3 基于群稀疏约束判别分析的特征参数提取65
- 3.4 实验结果及分析65-71
- 3.4.1 基于微软语料库语音识别结果65-70
- 3.4.2 基于WSJ语料库的语音识别结果70-71
- 3.5 本章小结71-73
- 第四章 基于语音分段和压缩感知的模型空间区分性特征提取73-95
- 4.1 基于语音分段和压缩感知区分性特征提取方法的原理分析73-74
- 4.2 基于语音分段区分性特征变换的一般形式74-76
- 4.2.1 基于变换矩阵字典的特征变换74-75
- 4.2.2 联合变换矩阵和偏移矢量的特征变换75-76
- 4.3 不相关匹配追踪算法的区分性特征变换76-80
- 4.3.1 最大似然字典项选取77-78
- 4.3.2 相关基矢量的去除78-79
- 4.3.3 变换矩阵权重系数的更新79
- 4.3.4 不相关匹配追踪特征变换的算法流程79-80
- 4.4 基于正则化的区分性特征变换80-82
- 4.4.1 基于正则化的区分性特征变换目标函数80-81
- 4.4.2 则化区分性特征变换的目标函数求解81-82
- 4.5 分段区分性特征变换后的特征融合82-84
- 4.5.1 基于特征提取网络的BN特征变换82-83
- 4.5.2 融合区分性变换后的特征83-84
- 4.6 基于语音分段和压缩感知的区分性特征提取方法流程84
- 4.7 实验结果及分析84-93
- 4.7.1 基于匹配追踪特征变换方法的识别性能84-88
- 4.7.2 基于正则化特征变换方法的识别性能88-91
- 4.7.3 基于帧和分段特征变换方法的抗噪声性能91
- 4.7.4 分段区分性特征变换与融合的识别性能91-93
- 4.8 本章小结93-95
- 第五章 广义边距区分性训练准则95-107
- 5.1 广义边距区分性训练准则的原理分析95-96
- 5.2 广义边距区分性训练目标准则96-100
- 5.2.1 基于增进因子和误识个数的加权方法97
- 5.2.2 基于后验概率的动态加权方法97-100
- 5.3 实验结果及分析100-105
- 5.3.1 软边距ρ和参数τ值的选取100
- 5.3.2 基于增进因子和误识个数加权方法的识别性能100-101
- 5.3.3 基于后验概率动态加权方法的识别性能101-102
- 5.3.4 广义边距区分性训练准则在TIMIT和WSJ语料库的识别性能102-104
- 5.3.5 融合动态加权前后的识别性能104-105
- 5.4 本章小结105-107
- 第六章 声学模型区分性训练中的动态加权数据选取方法107-119
- 6.1 基于动态加权的数据选取方法原理分析107-108
- 6.2 区分性训练方法108-109
- 6.2.1 最小音素错误准则统计量的计算108
- 6.2.2 增进的最小音素错误准则108-109
- 6.3 基于后验概率的动态加权109-110
- 6.3.1 基于语句识别错误率的动态加权109
- 6.3.2 基于后验概率的词图数据选取109-110
- 6.4 基于混淆信息加权的音素准确率110-112
- 6.5 基于动态加权的数据选取方法实现流程112-113
- 6.6 实验结果及分析113-117
- 6.6.1 基于后验概率的词图选取实验113-114
- 6.6.2 基于混淆信息加权的音素准确率计算实验114-115
- 6.6.3 基于γ_q~(zMPE)动态加权的识别实验115-116
- 6.6.4 联合基于后验概率动态加权和混淆信息加权实验116-117
- 6.7 本章小结117-119
- 第七章 基于混淆信息加权的区分性互补系统构造方法119-131
- 7.1 基于混淆信息加权的互补系统构造方法原理分析119-120
- 7.2 基于混淆信息加权的互补系统目标函数120-122
- 7.2.1 互补最小音素错误准则120
- 7.2.2 基于混淆信息加权的互补最小音素错误准则120-121
- 7.2.3 互补系统融合的识别率121-122
- 7.3 基于混淆信息加权的模型层互补系统122-124
- 7.3.1 多最优识别结果权值的确定122-123
- 7.3.2 互补系统音素准确率计算方法123-124
- 7.4 基于RDLT特征变换的特征层互补系统124-125
- 7.5 基于混淆信息加权的互补系统构造方法流程125
- 7.6 实验结果及分析125-129
- 7.6.1 基于微软语料库的互补系统识别性能125-129
- 7.6.2 基于WSJ语料库的互补系统识别性能129
- 7.7 本章小结129-131
- 第八章 总结与展望131-135
- 一 论文总结131-133
- 二 工作展望133-135
- 致谢135-137
- 参考文献137-155
- 作者简历155-156
【参考文献】
中国期刊全文数据库 前5条
1 陈斌;张连海;屈丹;李弼程;;一种广义边距区分性训练准则[J];声学学报;2014年01期
2 杨海;张翔;梁春燕;索宏彬;颜永红;;联合因子分析和稀疏表示在稳健性说话人确认中的应用[J];声学学报;2012年05期
3 顾晓江;赵鹤鸣;吕岗;;模型与特征混合补偿法及其在耳语说话人识别中的应用[J];声学学报;2012年02期
4 吴娅辉;刘刚;郭军;;基于模型混淆度的模型组合算法研究[J];自动化学报;2009年05期
5 鄢志杰;胡郁;王仁华;;一种基于区分性准则的模型结构优化方法[J];中文信息学报;2008年02期
本文关键词:连续语音识别特征提取与声学模型训练区分性技术研究,由笔耕文化传播整理发布。
,本文编号:324787
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/324787.html