端到端自动语音识别技术研究
发布时间:2020-12-14 00:11
语言作为人们在人际交往中最主要的沟通途径,将来必然会成为人机交互与共融的重要桥梁。自动语音识别(ASR)可以表述为通过计算机将人类语音信号转录为书面形式的文字输出的过程,而早自20世纪70年代以来,自动语音识别问题就一直是机器学习界的一个重要研究课题。发展到现在,尽管传统的自动语音识别技术仍在被使用,但是解决了传统框架识别过程繁琐、难于优化等问题的基于深度神经网络的端到端模型在自动语音识别领域正逐渐成为研究热点与发展方向。在此背景下,本课题立足于深度神经网络结构框架,对端到端的语音识别技术进行研究。首先,分析当前两种主流端到端自动语音识别模型—CTC和基于注意力机制的模型,总结了二者存在的问题:1.CTC对输出单元之间作了相互独立性假设,但事实上这对上下文紧密相关的语音识别是并不合理的;2.注意力机制下允许不规则的输入输出对齐,但是通常语音识别却具有严格单调对应的输入输出。因此,本文提出了一种结合了CTC与注意力机制的端到端自动语音识别模型,并在开源英文语音数据集Librispeech识别任务上验证了模型的有效改进。其次,本文提出了一种新型编码-解码结构的端到端自动语音识别模型,基于循...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图1-2典型的传统ASR框架??-
现代语音识别系统建立在统计原理的基础上,由Baker?(1975)和Jelinek??(1976)的工作开创,一种source-channel数学模型或生成统计模型通常用于_??表述语音识别问题。如图2-1所示,说话者的思想决定了通过他/她的文本生成??器传递的源文字序列W。源文本W是通过一个复杂的沟通通道,该通道由说话者??的发音器官组成,以产生语音波形和语音识别器的语音信号处理部件。最后,??语音解码器将声学信号X解码为单词序列W,其在理想情况下W十分接近近原始??单词序列W。??Communication?Channel???i?——;?ij??;??Text?nL?Speech?一*Signal?:、?Speech??Generator?Generator?;?’?Processing?i?’?Decoder????:?1?i??二J:??if?^??w:???u??";x?i?w??Speech?Recognizer??图2-1语音识别系统的一种source-channel模型[3Q]??典型的实用语音识别系统由图2-2的虚线框中所示的基本组件组成。应用??程序以解码器为接口来获得识别结果,结果又可用于调节系统中其他组件。声??学模型包括有关声学、语音、麦克风和周围环境变化、说话者之间的性别和方??言差异等所有与发出的语音信号相关的的认知表示。语言模型是指系统对可能??构成的单词、哪些词属于高频词、以及词汇以什么顺序出现等与文本信息相关??的认知。对于用户希望表达的语义和意愿,语言模型也可能是有必要去实现的。??在自动语音识别中存在许多不确定性
’?:??图2-2语音识别系统的基本结构框架[3n??如图2-2所示,语音信号在信号处理模块中处理,该信号处理模块提取解??码模块需要的显著特征向量。根据输入特征向量,解码器使用声学和语言模型??来生成具有最大后验概率的单词序列。在此框架中,解码器还为Adaptation组??件提供其所需的信息来修改声学或语言模型,从而可以获得性能提升。??2.?2语音信号特征提取??特征提取是传统语音识别系统的一个重要部分。特征提取的目的是压缩输??入信号(矢量)的幅度,而不会对语音信号的功率造成任何损害。有多种常用??的特征提取技术。??Continuous?Speech?Wkidowii^?Discrete??一一一一一、f?……'???Frames?Transform?r??Magnitude??Spectrum??—?—......?Me,?Mel??乂el?Inverse?L〇jj?Frequency??Cepstrum?DFT?Warping???一一、.?Spectrum?.??图2-3特征提取流程图[32]??图2-3表示了特征提取流程。在此,从一侧输入连续语音信号用于加窗过??程。在窗口化过程中
【参考文献】:
博士论文
[1]基于深度神经网络的语音识别模型研究[D]. 张仕良.中国科学技术大学 2017
本文编号:2915435
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图1-2典型的传统ASR框架??-
现代语音识别系统建立在统计原理的基础上,由Baker?(1975)和Jelinek??(1976)的工作开创,一种source-channel数学模型或生成统计模型通常用于_??表述语音识别问题。如图2-1所示,说话者的思想决定了通过他/她的文本生成??器传递的源文字序列W。源文本W是通过一个复杂的沟通通道,该通道由说话者??的发音器官组成,以产生语音波形和语音识别器的语音信号处理部件。最后,??语音解码器将声学信号X解码为单词序列W,其在理想情况下W十分接近近原始??单词序列W。??Communication?Channel???i?——;?ij??;??Text?nL?Speech?一*Signal?:、?Speech??Generator?Generator?;?’?Processing?i?’?Decoder????:?1?i??二J:??if?^??w:???u??";x?i?w??Speech?Recognizer??图2-1语音识别系统的一种source-channel模型[3Q]??典型的实用语音识别系统由图2-2的虚线框中所示的基本组件组成。应用??程序以解码器为接口来获得识别结果,结果又可用于调节系统中其他组件。声??学模型包括有关声学、语音、麦克风和周围环境变化、说话者之间的性别和方??言差异等所有与发出的语音信号相关的的认知表示。语言模型是指系统对可能??构成的单词、哪些词属于高频词、以及词汇以什么顺序出现等与文本信息相关??的认知。对于用户希望表达的语义和意愿,语言模型也可能是有必要去实现的。??在自动语音识别中存在许多不确定性
’?:??图2-2语音识别系统的基本结构框架[3n??如图2-2所示,语音信号在信号处理模块中处理,该信号处理模块提取解??码模块需要的显著特征向量。根据输入特征向量,解码器使用声学和语言模型??来生成具有最大后验概率的单词序列。在此框架中,解码器还为Adaptation组??件提供其所需的信息来修改声学或语言模型,从而可以获得性能提升。??2.?2语音信号特征提取??特征提取是传统语音识别系统的一个重要部分。特征提取的目的是压缩输??入信号(矢量)的幅度,而不会对语音信号的功率造成任何损害。有多种常用??的特征提取技术。??Continuous?Speech?Wkidowii^?Discrete??一一一一一、f?……'???Frames?Transform?r??Magnitude??Spectrum??—?—......?Me,?Mel??乂el?Inverse?L〇jj?Frequency??Cepstrum?DFT?Warping???一一、.?Spectrum?.??图2-3特征提取流程图[32]??图2-3表示了特征提取流程。在此,从一侧输入连续语音信号用于加窗过??程。在窗口化过程中
【参考文献】:
博士论文
[1]基于深度神经网络的语音识别模型研究[D]. 张仕良.中国科学技术大学 2017
本文编号:2915435
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2915435.html