基于BPE和Transformer的汉语语音识别技术研究
发布时间:2021-07-20 06:10
语音识别是实现人机语音交互的前提条件,正受到研究者越来越多的关注。基于联结主义时序分类(Connectionist Temporal Classification,CTC)的端到端声学模型建模技术成为主流方法之一,但选择用于CTC预测的基本输出单元是一个设计难题。识别单元的选择一般是基于语音学知识的,但是也可以通过数据驱动的方式来产生,使用后者所确定的单元可能在语音学上也许没有什么明确的意义,但也可能达到很好的性能。此外,语音识别系统中往往还包括语言模型,在传统建模方式中常采用n-gram语言模型。随着深度学习的发展,找到优化的策略或网络结构对语言模型进行改进也颇具研究价值。在此背景下,本文分别对自动语音识别系统中的声学模型建模技术和语言模型建模技术进行探索,一方面结合CTC理论提出新的建模单元集合,探究新的语言模型神经网络结构,提升语音识别的整体性能。首先,本文利用字节对编码(Byte Pair Encoding,BPE)算法的思想对声学模型进行改进,通过为其选择更合适的识别单元来提升语音识别性能。CTC声学模型可以选择大于音素的输出单元,比如声韵母和音节等,而且不用对输入语音信号的...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
语音识别系统基本框架[9]
入CTC之后,本文语音识别系统为图2-1所示。图2-1语音识别系统结构CTC引入到声学模型建模中,不仅解决了训练模型时需要目标标签与输入语音信号的每一帧对齐的问题,简化识别系统结构,而且还得以在识别单元上选择大于音素的单元,比如音节和汉字。本章首先介绍声学模型中所用到的CTC原理及模型训练中涉及到的计算,接着使用DCNN结构网络结合CTC技术,搭建基于无调音节识别单元集合的声学模型,同时,直接以文字为输出单元进行建模,作为后续语言模型的参照。语言模型部分,搭建传统的bigram语言模型
哈尔滨工业大学工学硕士学位论文图2-3 CTC声学模型示意图具体流程如下:(1)特征提取。读取语音信号,构造汉明窗,对语音段分帧(帧长25ms,帧移10ms),对分帧加窗后的语音段进行快速傅立叶变换(Fast Fourier Transformation,FFT),将时域信息转换到频域上去,转换为神经网络需要的二维频谱图像信号,即语谱图。过程如图2-4所示。其中,声学特征使用FFT取绝对值之后的前200个数据点,即输入特征帧为200维向量,这样做使语音段频带切割和滑动得更稠密,捕捉了更多细节特征。(2)声学模型。基于Keras和TensorFlow框架
【参考文献】:
期刊论文
[1]基于词片的语言模型及在汉语语音检索中的应用[J]. 郑铁然,韩纪庆,李海洋. 通信学报. 2009(03)
[2]在汉语语音识别中应用声调信息的研究[J]. 乔春雷,吴及,王作英. 计算机工程与应用. 2002(12)
[3]汉语大词汇量连续语音识别系统研究进展[J]. 刘加. 电子学报. 2000(01)
[4]汉语连续语音识别中上下文相关的识别单元(三音子)的研究[J]. 赵庆卫,王作英,陆大. 电子学报. 1999(06)
本文编号:3292295
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
语音识别系统基本框架[9]
入CTC之后,本文语音识别系统为图2-1所示。图2-1语音识别系统结构CTC引入到声学模型建模中,不仅解决了训练模型时需要目标标签与输入语音信号的每一帧对齐的问题,简化识别系统结构,而且还得以在识别单元上选择大于音素的单元,比如音节和汉字。本章首先介绍声学模型中所用到的CTC原理及模型训练中涉及到的计算,接着使用DCNN结构网络结合CTC技术,搭建基于无调音节识别单元集合的声学模型,同时,直接以文字为输出单元进行建模,作为后续语言模型的参照。语言模型部分,搭建传统的bigram语言模型
哈尔滨工业大学工学硕士学位论文图2-3 CTC声学模型示意图具体流程如下:(1)特征提取。读取语音信号,构造汉明窗,对语音段分帧(帧长25ms,帧移10ms),对分帧加窗后的语音段进行快速傅立叶变换(Fast Fourier Transformation,FFT),将时域信息转换到频域上去,转换为神经网络需要的二维频谱图像信号,即语谱图。过程如图2-4所示。其中,声学特征使用FFT取绝对值之后的前200个数据点,即输入特征帧为200维向量,这样做使语音段频带切割和滑动得更稠密,捕捉了更多细节特征。(2)声学模型。基于Keras和TensorFlow框架
【参考文献】:
期刊论文
[1]基于词片的语言模型及在汉语语音检索中的应用[J]. 郑铁然,韩纪庆,李海洋. 通信学报. 2009(03)
[2]在汉语语音识别中应用声调信息的研究[J]. 乔春雷,吴及,王作英. 计算机工程与应用. 2002(12)
[3]汉语大词汇量连续语音识别系统研究进展[J]. 刘加. 电子学报. 2000(01)
[4]汉语连续语音识别中上下文相关的识别单元(三音子)的研究[J]. 赵庆卫,王作英,陆大. 电子学报. 1999(06)
本文编号:3292295
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3292295.html