端到端自动语音识别技术研究

发布时间：2020-12-14 00:11

　　语言作为人们在人际交往中最主要的沟通途径,将来必然会成为人机交互与共融的重要桥梁。自动语音识别（ASR）可以表述为通过计算机将人类语音信号转录为书面形式的文字输出的过程,而早自20世纪70年代以来,自动语音识别问题就一直是机器学习界的一个重要研究课题。发展到现在,尽管传统的自动语音识别技术仍在被使用,但是解决了传统框架识别过程繁琐、难于优化等问题的基于深度神经网络的端到端模型在自动语音识别领域正逐渐成为研究热点与发展方向。在此背景下,本课题立足于深度神经网络结构框架,对端到端的语音识别技术进行研究。首先,分析当前两种主流端到端自动语音识别模型—CTC和基于注意力机制的模型,总结了二者存在的问题:1.CTC对输出单元之间作了相互独立性假设,但事实上这对上下文紧密相关的语音识别是并不合理的;2.注意力机制下允许不规则的输入输出对齐,但是通常语音识别却具有严格单调对应的输入输出。因此,本文提出了一种结合了CTC与注意力机制的端到端自动语音识别模型,并在开源英文语音数据集Librispeech识别任务上验证了模型的有效改进。其次,本文提出了一种新型编码-解码结构的端到端自动语音识别模型,基于循...

【文章来源】：北京邮电大学北京市 211工程院校教育部直属院校

【文章页数】：71 页

【学位级别】：硕士

【部分图文】：

端到端自动语音识别技术研究

图１－２典型的传统ＡＳＲ框架??－

模型图,语音识别系统,模型,说话者

现代语音识别系统建立在统计原理的基础上，由Ｂａｋｅｒ?（１９７５）和Ｊｅｌｉｎｅｋ??（１９７６）的工作开创，一种ｓｏｕｒｃｅ－ｃｈａｎｎｅｌ数学模型或生成统计模型通常用于＿??表述语音识别问题。如图２－１所示，说话者的思想决定了通过他／她的文本生成??器传递的源文字序列Ｗ。源文本Ｗ是通过一个复杂的沟通通道，该通道由说话者??的发音器官组成，以产生语音波形和语音识别器的语音信号处理部件。最后，??语音解码器将声学信号Ｘ解码为单词序列Ｗ，其在理想情况下Ｗ十分接近近原始??单词序列Ｗ。??Ｃｏｍｍｕｎｉｃａｔｉｏｎ?Ｃｈａｎｎｅｌ???ｉ?——；?ｉｊ??；??Ｔｅｘｔ?ｎＬ?Ｓｐｅｅｃｈ?一＊Ｓｉｇｎａｌ?：、?Ｓｐｅｅｃｈ??Ｇｅｎｅｒａｔｏｒ?Ｇｅｎｅｒａｔｏｒ?；?’?Ｐｒｏｃｅｓｓｉｎｇ?ｉ?’?Ｄｅｃｏｄｅｒ????：?１?ｉ??二Ｊ：??ｉｆ?＾??ｗ：???ｕ??＂；ｘ?ｉ?ｗ??Ｓｐｅｅｃｈ?Ｒｅｃｏｇｎｉｚｅｒ??图２－１语音识别系统的一种ｓｏｕｒｃｅ－ｃｈａｎｎｅｌ模型［３Ｑ］??典型的实用语音识别系统由图２－２的虚线框中所示的基本组件组成。应用??程序以解码器为接口来获得识别结果，结果又可用于调节系统中其他组件。声??学模型包括有关声学、语音、麦克风和周围环境变化、说话者之间的性别和方??言差异等所有与发出的语音信号相关的的认知表示。语言模型是指系统对可能??构成的单词、哪些词属于高频词、以及词汇以什么顺序出现等与文本信息相关??的认知。对于用户希望表达的语义和意愿，语言模型也可能是有必要去实现的。??在自动语音识别中存在许多不确定性

流程图,特征提取,流程图

’?：??图２－２语音识别系统的基本结构框架［３ｎ??如图２－２所示，语音信号在信号处理模块中处理，该信号处理模块提取解??码模块需要的显著特征向量。根据输入特征向量，解码器使用声学和语言模型??来生成具有最大后验概率的单词序列。在此框架中，解码器还为Ａｄａｐｔａｔｉｏｎ组??件提供其所需的信息来修改声学或语言模型，从而可以获得性能提升。??２．?２语音信号特征提取??特征提取是传统语音识别系统的一个重要部分。特征提取的目的是压缩输??入信号（矢量）的幅度，而不会对语音信号的功率造成任何损害。有多种常用??的特征提取技术。??Ｃｏｎｔｉｎｕｏｕｓ?Ｓｐｅｅｃｈ?Ｗｋｉｄｏｗｉｉ＾?Ｄｉｓｃｒｅｔｅ??一一一一一、ｆ?……＇???Ｆｒａｍｅｓ?Ｔｒａｎｓｆｏｒｍ？ｒ??Ｍａｇｎｉｔｕｄｅ??Ｓｐｅｃｔｒｕｍ??—?—．．．．．．?Ｍｅ，?Ｍｅｌ??乂ｅｌ?Ｉｎｖｅｒｓｅ?Ｌ〇ｊｊ?Ｆｒｅｑｕｅｎｃｙ??Ｃｅｐｓｔｒｕｍ?ＤＦＴ?Ｗａｒｐｉｎｇ???一一、．?Ｓｐｅｃｔｒｕｍ?．??图２－３特征提取流程图［３２］??图２－３表示了特征提取流程。在此，从一侧输入连续语音信号用于加窗过??程。在窗口化过程中

【参考文献】：
博士论文
[1]基于深度神经网络的语音识别模型研究[D]. 张仕良.中国科学技术大学 2017

本文编号：2915435

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2915435.html

上一篇：无线光通信混合调制解调技术研究
下一篇：5GHz无线频段的复合数字阵列天线噪声抑制

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|