基于剪枝AlexNet的普米语孤立词识别
发布时间:2021-08-17 08:24
普米语是1种日渐消亡的无文字的少数民族语言,人们为了让其获得更好的发展与传承,开展了许多基于深度学习的普米语语音识别研究工作.然而,人们为追求更高的识别精度,通常不断的增加模型复杂度,造成了神经网络学习速度慢、训练成本高等问题.为了加快普米语孤立词识别中网络的学习速度、降低网络的训练成本,对卷积神经网络的AlexNet模型采用迭代剪枝算法以逐层剪枝的方式进行修剪,然后从生成的稀疏网络中寻找最佳剪枝网络用于普米语语谱图识别.实验表明,AlexNet剪枝网络在普米语孤立词识别中,能够有效的降低网络计算量、加速模型训练.该网络具有比原网络更快的收敛速度,达到与原网络类似的较高识别精度.
【文章来源】:云南民族大学学报(自然科学版). 2020,29(04)
【文章页数】:8 页
【部分图文】:
剪枝前后神经网络结构图
AlexNet模型是在LeNet的基础上通过堆叠3个卷积层和1个汇聚层而成的第1个现代卷积神经网络,该模型总共有8个可训练层,其中包含5个卷积层和3个全连接层,具有多达上千万的待训练参数.模型中的卷积层可看成是特征提取层,而全连接层则看作是特征映射层.在模型最后1层采用softmax激活函数对普米语语谱图进行分类,卷积层与全连接层均使用relu激活函数.为加速模型收敛,还在该模型的每个卷积层之后都加入1个批量归一化(batch normalization, BN)层,其网络结构及其参数如图2所示.图中Input表示输入层,输入的是100×100×3的图像;conv1表示第1个卷积层,使用96个11×11的卷积核,s=4表示步长;MaxPooling表示汇聚层,在该模型中均采用大小为3×3的最大汇聚,Flatten表示展平层,常用于将多维输入一维化;fc表示全连接层.
普米语孤立词识别的流程大致如图3所示,首先通过对采集的原始声音语料经预处理转换为语谱图,然后由其组成数据集输入到神经网络中进行模型训练,最后给出识别结果.5.2 自建数据集
【参考文献】:
期刊论文
[1]基于AlexNet模型的佤语语谱图识别[J]. 王翠,王璐,解雪琴,和丽华,潘文林. 云南民族大学学报(自然科学版). 2019(04)
[2]基于GoogLeNet模型的剪枝算法[J]. 彭冬亮,王天兴. 控制与决策. 2019(06)
[3]基于PSO-SVM的普米语语谱图识别[J]. 杨花,江涛,董华珍,陈绍雄,傅美君,潘文林. 云南民族大学学报(自然科学版). 2018(05)
[4]基于Kaldi的普米语语音识别[J]. 胡文君,傅美君,潘文林. 计算机工程. 2018(01)
[5]基于HTK的普米语孤立词的语音识别[J]. 李余芳,苏洁,胡文君,潘文林. 云南民族大学学报(自然科学版). 2015(05)
[6]国内普米族研究综述[J]. 解鲁云. 云南民族学院学报(哲学社会科学版). 2003(01)
本文编号:3347426
【文章来源】:云南民族大学学报(自然科学版). 2020,29(04)
【文章页数】:8 页
【部分图文】:
剪枝前后神经网络结构图
AlexNet模型是在LeNet的基础上通过堆叠3个卷积层和1个汇聚层而成的第1个现代卷积神经网络,该模型总共有8个可训练层,其中包含5个卷积层和3个全连接层,具有多达上千万的待训练参数.模型中的卷积层可看成是特征提取层,而全连接层则看作是特征映射层.在模型最后1层采用softmax激活函数对普米语语谱图进行分类,卷积层与全连接层均使用relu激活函数.为加速模型收敛,还在该模型的每个卷积层之后都加入1个批量归一化(batch normalization, BN)层,其网络结构及其参数如图2所示.图中Input表示输入层,输入的是100×100×3的图像;conv1表示第1个卷积层,使用96个11×11的卷积核,s=4表示步长;MaxPooling表示汇聚层,在该模型中均采用大小为3×3的最大汇聚,Flatten表示展平层,常用于将多维输入一维化;fc表示全连接层.
普米语孤立词识别的流程大致如图3所示,首先通过对采集的原始声音语料经预处理转换为语谱图,然后由其组成数据集输入到神经网络中进行模型训练,最后给出识别结果.5.2 自建数据集
【参考文献】:
期刊论文
[1]基于AlexNet模型的佤语语谱图识别[J]. 王翠,王璐,解雪琴,和丽华,潘文林. 云南民族大学学报(自然科学版). 2019(04)
[2]基于GoogLeNet模型的剪枝算法[J]. 彭冬亮,王天兴. 控制与决策. 2019(06)
[3]基于PSO-SVM的普米语语谱图识别[J]. 杨花,江涛,董华珍,陈绍雄,傅美君,潘文林. 云南民族大学学报(自然科学版). 2018(05)
[4]基于Kaldi的普米语语音识别[J]. 胡文君,傅美君,潘文林. 计算机工程. 2018(01)
[5]基于HTK的普米语孤立词的语音识别[J]. 李余芳,苏洁,胡文君,潘文林. 云南民族大学学报(自然科学版). 2015(05)
[6]国内普米族研究综述[J]. 解鲁云. 云南民族学院学报(哲学社会科学版). 2003(01)
本文编号:3347426
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3347426.html