当前位置:主页 > 科技论文 > 信息工程论文 >

基于文本数据的端到端语音识别模型训练数据扩充方法

发布时间:2024-06-02 16:25
  智能化的时代正在加速到来,语音作为最自然便捷的交流方式,是推动生活与工作智能化的重要手段。语音识别(Automatic Speech Recognition,ASR)技术是一种将输入的语音信号转换为文本,进而能理解其内容的技术。近年来,随着基于序列到序列的通用建模方法的发展,诞生了端到端的语音识别模型。与传统方法相比,端到端语音识别模型仅包含一个单独的序列模型,可以直接从声学特征序列得到识别的单词序列,简化了语音识别的过程。同时模型不依赖语言模型和发音词典,降低了对专家知识的要求。然而,端到端语音识别模型通常需要大量的语音-文本对来训练,才能获得较好的性能。在实际应用中,收集大量配对数据既费力又昂贵,导致端到端语音识别模型经常无法有效识别罕见词和专有词。为此,本文将探讨基于文本数据的端到端语音识别模型的训练数据扩充方法。主要的工作和创新点如下:(1)基于RNN-T(RNN Transducer)的端到端语音识别模型基于RNN-T的端到端语音识别模型在优化过程中,能同时兼顾声学信息和语言学信息,是目前端到端语音识别领域性能最好的方法。因此,本文使用RNN-T模型搭建端到端语音识别基线模型...

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

图2-1预加重前后的语音信号频谱对比

图2-1预加重前后的语音信号频谱对比

哈尔滨工业大学工学硕士学位论文-10-原来的信号分布,有效提高声音信号的信噪比。一般通过一阶FIR高通数字滤波器来实现预加重,其传递函数为()=11(2-1)其中为预加重系数,0.9<<1.0。设时刻的信号采样值为(),经过预加重操作后的信号()为()=()(1)(2-2)其中取....


图2-2端点检测效果图

图2-2端点检测效果图

哈尔滨工业大学工学硕士学位论文-12-2)短时平均过零率,即每帧内信号穿过横轴的次数。信号()的短时平均过零率定义为:=|[()][(1)]|()∞=∞(2-8)其中()为符号函数,即[()]=1,()≥01,()<0(2-9)短时能量首先可以用来区分清音和浊音,因为浊音的能量要....



本文编号:3987501

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3987501.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a5002***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com