基于文本数据的端到端语音识别模型训练数据扩充方法

发布时间：2024-06-02 16:25

　　智能化的时代正在加速到来,语音作为最自然便捷的交流方式,是推动生活与工作智能化的重要手段。语音识别(Automatic Speech Recognition,ASR)技术是一种将输入的语音信号转换为文本,进而能理解其内容的技术。近年来,随着基于序列到序列的通用建模方法的发展,诞生了端到端的语音识别模型。与传统方法相比,端到端语音识别模型仅包含一个单独的序列模型,可以直接从声学特征序列得到识别的单词序列,简化了语音识别的过程。同时模型不依赖语言模型和发音词典,降低了对专家知识的要求。然而,端到端语音识别模型通常需要大量的语音-文本对来训练,才能获得较好的性能。在实际应用中,收集大量配对数据既费力又昂贵,导致端到端语音识别模型经常无法有效识别罕见词和专有词。为此,本文将探讨基于文本数据的端到端语音识别模型的训练数据扩充方法。主要的工作和创新点如下:(1)基于RNN-T(RNN Transducer)的端到端语音识别模型基于RNN-T的端到端语音识别模型在优化过程中,能同时兼顾声学信息和语言学信息,是目前端到端语音识别领域性能最好的方法。因此,本文使用RNN-T模型搭建端到端语音识别基线模型...

【文章页数】：63 页

【学位级别】：硕士

【部分图文】：

图2-1预加重前后的语音信号频谱对比

哈尔滨工业大学工学硕士学位论文-10-原来的信号分布，有效提高声音信号的信噪比。一般通过一阶FIR高通数字滤波器来实现预加重，其传递函数为()=11（2-1）其中为预加重系数，0.9<<1.0。设时刻的信号采样值为()，经过预加重操作后的信号()为()=()(1)（2-2）其中取....

图2-2端点检测效果图

哈尔滨工业大学工学硕士学位论文-12-2）短时平均过零率，即每帧内信号穿过横轴的次数。信号()的短时平均过零率定义为:=|[()][(1)]|()∞=∞（2-8）其中()为符号函数，即[()]=1,()≥01,()<0（2-9）短时能量首先可以用来区分清音和浊音，因为浊音的能量要....

本文编号：3987501

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3987501.html

上一篇：基于物联网与人工神经网络的温室监控方案
下一篇：物联网中可撤销的属性基加密方案的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|