当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的藏语安多方言语音识别的研究

发布时间:2024-03-04 22:33
  在人类发展的历史长河中,语音作为人类交流必不可少的一部分,一直是国内外学者研究的重点课题。如何让计算机与人类通过“语言”交流更是热门的研究对象。随着Siri等许多语音识别软件的出现和智能家居的兴起,智能语音处理的应用逐渐走进人们的生活,并持续地扮演重要角色。在这个大数据的时代,拥有着对数据建模超能力的深度学习算法,已经被普及于语音识别、图像处理等模式识别领域。目前,语音识别技术针对英语、日语、德语、中文等主流国际语言识别正确率高达99%以上。但是针对像藏语这样的民族方言研究仍处在很浅显的阶段。因此,本文主要研究提高深度学习在藏语安多方言连续语音识别上的效果。本文主要工作如下:1.建立了一个用于藏语安多方言语音识别的大规模语音语料库。我们选取了10000个藏语常用句子来构建藏语安多方言语料库。我们筛选了以藏语安多方言为母语的5位男性说话人和5位女性说话人,每人录制1000句语音,一共录制的语料库时长为15.6小时。再根据发音词典对文本语料进行标注,并将语料按照3:1的比例分别组成训练集和测试集。2.实现了基于深度神经网络(Deep Neural Networks,DNN)和隐马尔科夫模型...

【文章页数】:43 页

【学位级别】:硕士

【部分图文】:

图3.1发音字典格式

图3.1发音字典格式

第3章藏语安多方言语料库的构建11图3.1发音字典格式3.4语料库的标注根据前面我们介绍过的发音词典,我们可以将语料库中的文本全部进行标注成拉丁转写的形式。首先,我们需要去掉所有分隔符号,将所有文本中的每个之间以空格分开。接下来,我们开始在字典中查找每个字的声韵母标注,将其字的标....


图4.3DNN-HMM结构图

图4.3DNN-HMM结构图

第4章基于DNN-HMM的藏语安多方言语音识别17图4.3DNN-HMM结构图图中的DNN-HMM系统,它采用的是贝叶斯定理,同时引入HMM状态序列S的概念。所以在第三章提出的概率XWP)|(可以继续进行分解:==SWSWWWPWSPSXPWPWSPWSXPXWPW)()|()|....


图4.4部分语言模型截图

图4.4部分语言模型截图

第4章基于DNN-HMM的藏语安多方言语音识别19G.fst两个文件。其中,G.fst是一个有限状态转换机形式的藏语语言模型,L.fst则是有限状态转换机形式藏文发音字典。接下来开始进行声学模型的训练。首先训练单音子的HMM模型,将它迭代40次后,测试单音子模型,同时建立完全的识....


图5.1混合CTC/Attention系统结构图

图5.1混合CTC/Attention系统结构图

第5章基于端到端的藏语安多方言语音识别24图5.1混合CTC/Attention系统结构图编码层采用四层BLSTM用于训练网络,Attention模型使用标签<sos>作为起始符号,而<eos>则代表序列的结尾。混合CTC/Attention的端到端普通话语音识别体系结构如图3.....



本文编号:3919269

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3919269.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7ddd1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com