基于卷积神经网络的大容量汉语孤立字语音识别方法

发布时间：2021-03-20 13:55

　　使用录音设备对1 605个常用汉字进行录音,得到920个孤立字发音、3 680个非特定人的语音样本库.采用语音语谱图作为汉语单字语音识别的特征,构建了6层卷积神经网络应用于模型库的语音识别.通过深度学习方法对语音样本进行了训练和识别.实验结果表明,所构造的20-40-3500结构的卷积神经网络模型对语音样本库具有最好的识别效果,对测试样本的识别率达到97.87%,对全部样本的识别率达到99.32%.

【文章来源】：东北师大学报(自然科学版). 2020,52(02)北大核心

【文章页数】：6 页

【部分图文】：

汉字发音zhao一声时的彩色语谱图与灰度图

语音,端点检测,预加重

(4）语音信号加窗：进行预加重数字滤波处理后，进行加窗分帧处理[10]．语音信号具有短时平稳性，这样就可以把语音信号分为一些短时间段来进行处理，这就是分帧．语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的．一般每秒的帧数为33～100帧，视情况而定．一般的分帧方法为交叠分段的方法，前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般为0～0.5（见图7).图7 语音预加重例图

语谱图,预加重,语音,语谱图

语音预加重例图

【参考文献】：
期刊论文
[1]基于卷积神经网络的人脸识别方法[J]. 陈耀丹,王连明.  东北师大学报(自然科学版). 2016(02)
[2]基于深度学习神经网络的孤立词语音识别的研究[J]. 王山海,景新幸,杨海燕.  计算机应用研究. 2015(08)
[3]卷积神经网络在语音识别中的应用[J]. 张晴晴,刘勇,王智超,潘接林,颜永红.  网络新媒体技术. 2014(06)
[4]基于听觉仿生模型的乐器识别[J]. 张琳,王珊,秦晓瑜,陈海霞,王连明.  东北师大学报(自然科学版). 2014(01)
[5]汉语大词汇量连续语音识别系统研究进展[J]. 刘加.  电子学报. 2000(01)
[6]最大互信息用于语音识别[J]. 张春涛,吴善培.  北京邮电大学学报. 1998(03)
[7]基于话者分类和HMM的话者自适应语音识别[J]. 戴蓓倩,郁正庆,戴任飞,张劲松,王长富,司虎.  中国科学技术大学学报. 1996(02)

本文编号：3091112

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3091112.html

上一篇：一种LAMBDA整周模糊度解算正确性的评估算法
下一篇：一种实用的飞行器捷联惯性导航算法

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|