基于CNN-BGRU的音素识别研究
发布时间:2021-07-19 16:49
音素是一个语言体系中最小的语音单位,音素识别在大词汇语音识别任务中不受词汇和语句的限制.因此,选择音素作为识别单元,建立基于CNN-BGRU的神经网络模型,实现音素语谱图的分类.首先,使用短时傅里叶变换生成音素语谱图作为模型的输入;其次建立CNN-BGRU模型,利用改进的VGGNet模型提取音素语谱图的特征,再使用双向门控循环单元(BGRU)实现音素语谱图的序列信息表示;最后,通过Softmax分类器实现音素语谱图的分类.实验使用TIMIT英语语音数据集进行音素语谱图识别,准确率达到98.6%,优于CNN(VGG16)、CNN-RNN、CNN-BRNN、CNN-BLSTM这4个模型.
【文章来源】:云南民族大学学报(自然科学版). 2020,29(05)
【文章页数】:8 页
【部分图文】:
卷积核大小的影响
1) 由于全连接层的参数量较大,所以通过减少全连接层来降低整个网络的参数总量,以此来提升VGGNet模型的性能,本文将VGGNet模型的3个全连接层减少为1个全连接层.2) 由于全局均值池化层能通过加强特征图与标签之间的对应关系提升网络的特征提取能力,所以本章使用全局均值池化层代替最后1个最大池化层,求得每个特征图的平均值,然后将输出的结果向量直接输入softmax层,这样可以在保证网络性能的情况下,有效地减少网络的参数数量.
卷积神经网络CNN对于图像识别任务效果出色,VGGNet在提取图像特征上具有优势,循环神经网络RNN擅长时序数据的处理,BGRU对于序列信息识别效果出色.本文提出的CNN-BGRU模型利用VGGNet提取音素语谱图的图像特征;然后将图像特征输入BGRU模型,通过正向传递隐层和反向传递隐层实现音素语谱图的序列信息表示;最后输入给SoftMax分类器输出分类结果,VGG-BGRU模型结构图如图5所示:图5 改进CNN-BGRU模型结构
【参考文献】:
期刊论文
[1]基于循环神经网络的音素识别研究[J]. 黎长江,胡燕. 微电子学与计算机. 2017(08)
[2]基于用户和产品Attention机制的层次BGRU模型[J]. 郑雄风,丁立新,万润泽. 计算机工程与应用. 2018(11)
[3]一种基于RBM的深层神经网络音素识别方法[J]. 陈琦,张文林,牛铜,李弼程. 信息工程大学学报. 2013(05)
[4]论汉语方言语音的演变[J]. 李如龙. 语言研究. 1999(01)
本文编号:3291061
【文章来源】:云南民族大学学报(自然科学版). 2020,29(05)
【文章页数】:8 页
【部分图文】:
卷积核大小的影响
1) 由于全连接层的参数量较大,所以通过减少全连接层来降低整个网络的参数总量,以此来提升VGGNet模型的性能,本文将VGGNet模型的3个全连接层减少为1个全连接层.2) 由于全局均值池化层能通过加强特征图与标签之间的对应关系提升网络的特征提取能力,所以本章使用全局均值池化层代替最后1个最大池化层,求得每个特征图的平均值,然后将输出的结果向量直接输入softmax层,这样可以在保证网络性能的情况下,有效地减少网络的参数数量.
卷积神经网络CNN对于图像识别任务效果出色,VGGNet在提取图像特征上具有优势,循环神经网络RNN擅长时序数据的处理,BGRU对于序列信息识别效果出色.本文提出的CNN-BGRU模型利用VGGNet提取音素语谱图的图像特征;然后将图像特征输入BGRU模型,通过正向传递隐层和反向传递隐层实现音素语谱图的序列信息表示;最后输入给SoftMax分类器输出分类结果,VGG-BGRU模型结构图如图5所示:图5 改进CNN-BGRU模型结构
【参考文献】:
期刊论文
[1]基于循环神经网络的音素识别研究[J]. 黎长江,胡燕. 微电子学与计算机. 2017(08)
[2]基于用户和产品Attention机制的层次BGRU模型[J]. 郑雄风,丁立新,万润泽. 计算机工程与应用. 2018(11)
[3]一种基于RBM的深层神经网络音素识别方法[J]. 陈琦,张文林,牛铜,李弼程. 信息工程大学学报. 2013(05)
[4]论汉语方言语音的演变[J]. 李如龙. 语言研究. 1999(01)
本文编号:3291061
本文链接:https://www.wllwen.com/kejilunwen/wltx/3291061.html