基于DNN-HMM的藏语多任务学习声学模型研究
发布时间:2021-06-15 06:25
自动语音识别技术是可以使人与机器交流更加顺畅的关键技术之一。近年来随着深度学习技术的不断发展,语音识别的准确率得到了很大程度的提升。通过研究发现,充足且有效的训练数据可以使语音识别效果有很大的提升。例如英语和汉语普通话这样的数据资源充足的语言,语音识别的准确性已经达到了人的水平,但是很多语言的数据资源相对有限,这就导致这类语言在语音识别的研究上没有取得很好的进展。本文在藏语语音识别中对训练数据获取有限的前提下,我们来研究藏语自动语音识别中使用深度神经网络的方法进行声学模型的建模。在声学模型的构建上面尝试着使用多任务学习的思想,通过多个任务联合训练,从而提高语音识别正确率,一定程度上缓解训练数据不足的问题。在对声学模型的多任务学习研究上面,我们选择藏语拉萨话作为研究对象,在声学模型深度神经网络的选取上,我们对时延神经网络进行了研究和尝试。为了探寻深度神经网络对藏语拉萨话语音识别的影响,我们首先建立基于TDNN-HMM的藏语拉萨话语音识别基线系统,然后针对模型建模能力和训练速度以及训练数据有限等问题,我们进行分析和研究,选择使用半正交因式分解TDNN结构进行藏语拉萨话声学模型的建模,实验结...
【文章来源】:西北民族大学甘肃省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
语音识别系统的架构
西北民族大学硕士学位论文82.1信号处理和特征提取语音识别中所有特征提取的共同目标是:使语音信息更可用于统计建模。原始音频信号不利于建模语音,因为语音信号在时域上面是一个不平稳的随机过程,而在频域上面我们可以通过分析观察它们的共振峰特性、基音频率和谐波频率等信息。如下图2.2所示:原始波形显示音频(上面),在频域上面的表述(下面)。所以在特征提取的时候通常是将原始音频信号经过傅里叶变换之后,在频域上面分析语音信号的特性。图2.2波形图和语谱图语音识别中常用的特征提取方法有很多种:基于滤波器组的Fbank特征和梅尔频率倒谱系数(MFCC)等,本文提取的特征是梅尔频率倒谱系数特征,如下图2.3所示是MFCC特征的提取流程:图2.3MFCC特征提取流程MFCC是指在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:)4-2()7001lg(2595)(ffMel
西北民族大学硕士学位论文82.1信号处理和特征提取语音识别中所有特征提取的共同目标是:使语音信息更可用于统计建模。原始音频信号不利于建模语音,因为语音信号在时域上面是一个不平稳的随机过程,而在频域上面我们可以通过分析观察它们的共振峰特性、基音频率和谐波频率等信息。如下图2.2所示:原始波形显示音频(上面),在频域上面的表述(下面)。所以在特征提取的时候通常是将原始音频信号经过傅里叶变换之后,在频域上面分析语音信号的特性。图2.2波形图和语谱图语音识别中常用的特征提取方法有很多种:基于滤波器组的Fbank特征和梅尔频率倒谱系数(MFCC)等,本文提取的特征是梅尔频率倒谱系数特征,如下图2.3所示是MFCC特征的提取流程:图2.3MFCC特征提取流程MFCC是指在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:)4-2()7001lg(2595)(ffMel
【参考文献】:
期刊论文
[1]基于端到端技术的藏语语音识别[J]. 王庆楠,郭武,解传栋. 模式识别与人工智能. 2017(04)
[2]基于深度特征学习的藏语语音识别[J]. 王辉,赵悦,刘晓凤,徐晓娜,周楠,许彦敏. 东北师大学报(自然科学版). 2015(04)
[3]藏语拉萨话大词表连续语音识别声学模型研究[J]. 李冠宇,孟猛. 计算机工程. 2012(05)
[4]藏语连续语音语料库设计与实现[J]. 李永宏,于洪志,孔江平. 计算机工程与应用. 2010(13)
本文编号:3230627
【文章来源】:西北民族大学甘肃省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
语音识别系统的架构
西北民族大学硕士学位论文82.1信号处理和特征提取语音识别中所有特征提取的共同目标是:使语音信息更可用于统计建模。原始音频信号不利于建模语音,因为语音信号在时域上面是一个不平稳的随机过程,而在频域上面我们可以通过分析观察它们的共振峰特性、基音频率和谐波频率等信息。如下图2.2所示:原始波形显示音频(上面),在频域上面的表述(下面)。所以在特征提取的时候通常是将原始音频信号经过傅里叶变换之后,在频域上面分析语音信号的特性。图2.2波形图和语谱图语音识别中常用的特征提取方法有很多种:基于滤波器组的Fbank特征和梅尔频率倒谱系数(MFCC)等,本文提取的特征是梅尔频率倒谱系数特征,如下图2.3所示是MFCC特征的提取流程:图2.3MFCC特征提取流程MFCC是指在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:)4-2()7001lg(2595)(ffMel
西北民族大学硕士学位论文82.1信号处理和特征提取语音识别中所有特征提取的共同目标是:使语音信息更可用于统计建模。原始音频信号不利于建模语音,因为语音信号在时域上面是一个不平稳的随机过程,而在频域上面我们可以通过分析观察它们的共振峰特性、基音频率和谐波频率等信息。如下图2.2所示:原始波形显示音频(上面),在频域上面的表述(下面)。所以在特征提取的时候通常是将原始音频信号经过傅里叶变换之后,在频域上面分析语音信号的特性。图2.2波形图和语谱图语音识别中常用的特征提取方法有很多种:基于滤波器组的Fbank特征和梅尔频率倒谱系数(MFCC)等,本文提取的特征是梅尔频率倒谱系数特征,如下图2.3所示是MFCC特征的提取流程:图2.3MFCC特征提取流程MFCC是指在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:)4-2()7001lg(2595)(ffMel
【参考文献】:
期刊论文
[1]基于端到端技术的藏语语音识别[J]. 王庆楠,郭武,解传栋. 模式识别与人工智能. 2017(04)
[2]基于深度特征学习的藏语语音识别[J]. 王辉,赵悦,刘晓凤,徐晓娜,周楠,许彦敏. 东北师大学报(自然科学版). 2015(04)
[3]藏语拉萨话大词表连续语音识别声学模型研究[J]. 李冠宇,孟猛. 计算机工程. 2012(05)
[4]藏语连续语音语料库设计与实现[J]. 李永宏,于洪志,孔江平. 计算机工程与应用. 2010(13)
本文编号:3230627
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3230627.html