当前位置:主页 > 科技论文 > 信息工程论文 >

基于LSTM-CTC的藏语拉萨话语音识别系统

发布时间:2024-10-03 00:14
  伴随着科学技术的发展,计算机及其它智能设备逐渐得以普及。语音是人与人之间最直接的交流方法,所以人机语音交互一直是相关研究人员研究的热点。由于DNNs的应用,ASR的性能得到了极大的提高。目前大语种的语音识别已经取得了很好的效果,但对于像藏语这类小语种的识别还较少。但建设一个语音识别系统仍然是一个具有挑战性的任务,需要各种资源、不同的训练阶段和专业知识。与传统基于隐马尔可夫模型的语音识别相比,端到端语音识别模型结构单一,不需要区分声学模型和语言模型,不需要发音词典。现阶段端到端的语音识别系统主要有两种类型:CTC(联结时序分类)和Attention模型。本文采用基于LSTM-CTC的端到端方法进行声学建模,进行藏语拉萨话的语音识别。为了消除预先生成帧标签的需要,采用联结时间分类(CTC)目标函数来推断语音和标签序列之间的对齐。使用WFSTs进行解码,它能有效的将词典和语言模型结合到CTC解码中。文中以音频的特征参数作为声学模型的输入,输出为音素序列的概率,最终实现基于LSTM-CTC的藏语语音识别。实验结果表明,在现已有的藏语数据集,基于端到端语音识别结果比传统的DNN-HMM方法效果好。...

【文章页数】:45 页

【学位级别】:硕士

【部分图文】:

图4-2发音词典

图4-2发音词典

要根据藏语发音特点,选取能够行标注,这样以便在模型训练中音词典是从词到音素级别的映射字对应的音素发音词典如图4-2所


图4-4音素对映关系

图4-4音素对映关系

图4-4音素对映关系4.4章节所描述的解码方法来生成搜索图,第一步根据语言模型来t(语言模型),然后根据untils.txt来生成T.fst(音素或者字符),txt来生成L.fst(词典),最后形成综合搜索图TLG.fst。步进行特征提取,生成Fbank特....


图4-9识别文本与原始文本对比

图4-9识别文本与原始文本对比

由18.94%下降至18.71%,下降了0.23%。根据实验结果可以得出使用CTC技术,在80小时的数据集下,效果比较好,随着网络层数的增加,神经元数目的增加,识别效果会进一步的提升。但是每一层的神经元数目减少,增加网络层数,识别的效果会有所下降。图4-9为系统识别结果与....



本文编号:4006525

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/4006525.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户80cff***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com