当前位置:主页 > 文艺论文 > 语言艺术论文 >

基于深度卷积神经网络的藏语语音识别研究

发布时间:2025-02-11 18:26
  自动语音识别技术作为一项核心技术在呼叫中心、医疗服务和移动应用等领域得到了广泛的应用。随着国内外对语音识别技术研究的快速发展,汉语、英语等资源丰富语言的语音识别技术已经达到了很好的识别性能,然而,藏语由于其语料库构建困难和语言本身的特殊性,语音识别技术发展缓慢,提升藏语语音识别系统的性能是当前语音识别技术领域的一个重要研究内容。本文主要研究卷积神经网络在藏语语音识别中的应用,主要工作如下:1.特征提取。将语音信号转化为语谱图,尽可能保留语音信号中的信息,作为深度卷积神经网络的特征输入。2.声学建模。将图像识别中取得良好性能的卷积神经网络引入到藏语语音识别中,从而更好地捕捉语谱图中的局部信息。3.端到端语音识别。将卷积神经网络与联结时序分类方法结合,设计了端到端的藏语语音识别系统。4.分类器结构优化。进一步增加卷积神经网络的层数,使用叠加卷积层的方法,提升网络的特征提取能力。对上述模型在实验室建立的藏语语料库进行对比实验,得出以下结论:1.将语音转化为频谱图作为特征提取方法,可以更好地保留语音信号时域中有利于识别的信息。2.使用卷积神经网络对语谱图进行语音特征提取,提升了藏语语音识别性能。...

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

图2-2加窗分帧示意图

图2-2加窗分帧示意图

青海师范大学硕士学位论文14模型。语音信号加重,可以有效地减少高频段的波动性,增加高频段的信噪比,从而减少其受到噪声的干扰,减少语音信号的信息损失,保留更多的可以进行识别的信息。提升语音信号的高频部分,通常是将语音信号输入一阶高通滤波器,通过响应函数对于语音波形进行变换。一阶高通....


图3-1神经元模型

图3-1神经元模型

基于深度卷积神经网络的藏语语音识别研究17图3-1神经元模型神经网络的训练方式就是调参,即将权值调整为最适合分类的最佳参数,从而达到最好的识别性能。图3-1中,1x,2x,3x为输入,箭头线称为“连接”,作为传输数据的通道,1w,2w和3w分别为每一个“连接”上的一个权值,b为偏....


图4-1语谱原始语音分帧加窗

图4-1语谱原始语音分帧加窗

基于深度卷积神经网络的藏语语音识别研究234.2语谱图特征提取语谱图是语音信号的二维表示方式,使时域和频域进行结合,清楚地表示出了语音信号的频谱特征随着时间的变化而产生的变化。语谱图的提取过程如图4-1所示:图4-1语谱图提取过程图4-1中语谱图横轴表示时间变量,纵轴表示语音信号....


图4-3叠加卷积层深度CNN模型

图4-3叠加卷积层深度CNN模型

基于深度卷积神经网络的藏语语音识别研究25小,本文设计了更深层的CNN进行藏语语音识别。本文采用的深度CNN基本架构如图4-3所示:图4-3叠加卷积层深度CNN模型与传统CNN结构不同,深度CNN直接使用多卷积层对整句语音信号进行建模,并在每个卷积层后再叠加一层相同的卷积层,形成....



本文编号:4033675

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/4033675.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户33d86***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com