深度学习语音识别系统中的若干建模问题研究

发布时间:2021-05-19 05:16
  语音作为人类交流的自然方式,其作为人机交互的手段拥有的先天优势。自动语音识别要为了让计算机能够“听懂”人类的语音,实现由语音序列向文本序列的转化。伴随着深度学习发展,基于深度神经网络的语音识别如今已经成为主流。现在语音识别后端建模有两种框架:混合和端到端架构。在此背景下,本论文集中在两种架构下语音识别的若干建模问题研究。一方面,在混合架构下针对建模中的实用性问题(如时延问题,噪声鲁棒性问题)进行研究,‘减’少实际应用场景(如时延要求、噪声)对性能的影响;另一方面,针对端到端语音识别架构的不足,研究目前端到端模型的合理性问题(如注意力向量优化和多层级标签建模)。通过在模型搭建中加入‘低成本’但有效信息(如后验信息、多层级标签信息),为识别性能做‘加’法。首先、针对语音识别系统的时延问题,本文研究基于长短期记忆(Long Short Term Memory,LSTM)网络的在线语音识别声学建模。单向LSTM网络结构无时延但缺乏对未来时序的利用,双向LSTM网络充分利用了上下文时序信息但存在高时延的缺点。针对在线语音识别声学建模的高性能、时延可控的要求,本文提出了一种基于注意力机制的LSTM... 

【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校

【文章页数】:130 页

【学位级别】:博士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 语音识别
        1.1.1语音识别系统划分
        1.1.2 语音识别历史回顾
        1.1.3 语音识别系统结构
    1.2 深度学习
        1.2.1 深度学习的历史回顾
        1.2.2 常见的神经网络结构
    1.3 基于深度学习的语音识别
        1.3.1 基于深度学习的混合架构语音识别
        1.3.2 基于深度学习的端到端架构语音识别
        1.3.3 深度学习语音识别系统中的建模问题
    1.4 本文的主要研究内容及组织结构
        1.4.1 本文的主要内容
        1.4.2 本文的组织结构
    1.5 语音识别数据库简介
第2章 时序注意机制的LSTM声学模型与时延问题研究
    2.1 前言
    2.2 前馈序列记忆神经网络
    2.3 基于未来时序注意机制的单向LSTM模型
    2.4 实验结果与分析
    2.5 本章小结
第3章 稠密残差网络声学模型与噪声鲁棒性问题研究
    3.1 前言
    3.2 残差网络与稠密网络
        3.2.1 残差网络简介
        3.2.2 稠密网络简介
        3.2.3 两种网络的结构对比
    3.3 基于稠密残差网络的声学模型
        3.3.1 稠密残差层结构
        3.3.2 基于稠密残差网络的声学模型搭建
        3.3.3 讨论:模型配置
    3.4 实验结果与分析
        3.4.1 CHiME4:多通道语音识别任务
        3.4.2 模型的噪声鲁棒性分析
    3.5 本章小结
第4章 扩展后验注意力模型与注意力向量优化问题
    4.1 前言
    4.2 编码-解码模型相关内容介绍
        4.2.1 曝光偏差和计划采样方法
        4.2.2 后验注意力模型介绍
    4.3 基于扩展后验注意力机制的端到端语音识别
        4.3.1 扩展后验注意力模型结构
        4.3.2 曝光偏差问题与解决方法
    4.4 实验结果与分析
        4.4.1 实验验证:后验优化注意力分布
        4.4.2 实验验证:曝光误差
        4.4.3 实验总结:EPAM模型最终性能表现
    4.5 本章小结
第5章 多层级标识序列对齐方法与多层级标签建模
    5.1 前言
    5.2 语音识别任务中的多层级标识
        5.2.1 多种文本序列表示形式
        5.2.2 常见的子词分割算法
        5.2.3 现有端到端语音识别建模研究工作
    5.3 基于序列间对齐映射的多层级端到端语音识别建模
        5.3.1 多层级标识间的对齐映射关系
        5.3.2 对齐映射关系与端到端模型结构
        5.3.3 序列间对齐映射关系与端到端解码过程
    5.4 实验结果与分析
        5.4.1 模型的性能表现
        5.4.2 模型的可视化与分析
        5.4.3 与已有工作的比较
    5.5 本章小结
第6章 总结
    6.1 本文的主要贡献与创新点
    6.2 后续的研究工作
参考文献
致谢
在读期间发表的学术论文与取得的研究成果



本文编号:3195187

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3195187.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户24e3c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com