基于深度神经网络的RASR语音识别的研究
发布时间:2017-06-08 01:18
本文关键词:基于深度神经网络的RASR语音识别的研究,,由笔耕文化传播整理发布。
【摘要】:目前有关语言和语音处理的公共可用的开源软件越来越多,而大多数的语音识别系统仅仅处理封闭的词汇表。但对于处理无限制语音输入的应用程序来说,即使再大的词汇表也无法覆盖所有的词汇。德国亚琛工业大学开发的开源语音识别工具(RWTH ASR,简称RASR),可将词汇表中的词单元组合起来合并成一个新词,从而在识别处理过程中识别外来词汇,完成大词汇量连续语音识别。本文除了回顾语音识别相关理论背景之外,更重要的是通过RASR工具中的声学模型和解码器开发识别大词汇量语音系统。通过配置相应参数完成语音信号分析,估计高斯混合模型(Gaussian Mixture Models, GMM)和语音决策树,结合深度神经网络(Deep Neural Network, DNN)得到一个开放的词汇自动语音识别(Automatic Speech Recognition, ASR)系统。通过使用SRILM工具包训练语言模型,最后使用NIST SCTK语音识别评分工具包进行误差分析和评估。本文的重点是使用神经网络(Neural Network, NN)模块训练神经网络声学模型,并详细说明和介绍如何使用RASR开发大词汇量连续语音自动识别系统,重点介绍训练和识别的配置和实现。
【关键词】:RASR 神经网络 声学模型 语音识别
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.34
【目录】:
- 摘要4-5
- ABSTRACT5-10
- 第一章 绪论10-12
- 1.1 语音识别概述10
- 1.2 语言识别研究历史及现状10-11
- 1.3 论文研究内容和组织结构11-12
- 第二章 RASR实现语音识别的基本原理12-20
- 2.1 隐马尔可夫模型基本原理13-15
- 2.2 HMM参数说明15
- 2.3 Baum-Welch重估15-18
- 2.4 识别和Viterbi算法18-19
- 2.5 本章小结19-20
- 第二章 神经网络模型20-29
- 3.1 人工神经网络基础20-22
- 3.1.1 人工神经网络模型20-21
- 3.1.2 神经网络的结构21-22
- 3.1.3 神经网络的学习22
- 3.2 BP网络模型22-25
- 3.2.1 BP算法的基本思想23
- 3.2.2 BP算法的步骤23-24
- 3.2.3 BP网络优缺点24-25
- 3.3 深度学习神经网络模型25-28
- 3.3.1 深度学习简介25-26
- 3.3.2 深度学习的基本思想26
- 3.3.3 深度学习的常用方法26
- 3.3.4 深度信念神经网络26-28
- 3.4 本章小结28-29
- 第四章 基于深度神经网络的RASR语音识别的研究29-59
- 4.1 软件安装29-31
- 4.1.1 RASR 0.6.1安装29-30
- 4.1.2 SRILM工具安装30-31
- 4.1.3 NISTSCTK安装31
- 4.2 数据准备31-36
- 4.2.1 语料库文件31-33
- 4.2.2 字典文件33-34
- 4.2.3 计算统计34-36
- 4.3 特征提取36-39
- 4.3.1 流网络36-37
- 4.3.2 声学特征37-38
- 4.3.3 MFCC特征提取38-39
- 4.4 声学模型训练39-46
- 4.4.1 单音素训练40-42
- 4.4.2 三音素训练42-46
- 4.5 神经网络训练46-49
- 4.6 语言模型训练49
- 4.7 解码及识别49-53
- 4.7.1 解码器49-50
- 4.7.2 识别过程50-53
- 4.8 实验结果53-58
- 4.8.1 AN4语料库识别53-54
- 4.8.2 TIMIT语料库识别54-58
- 4.9 本章小结58-59
- 第五章 总结与展望59-61
- 5.1 总结59
- 5.2 展望59-61
- 参考文献61-64
- 致谢64
【参考文献】
中国期刊全文数据库 前1条
1 杨俊安;王一;刘辉;李晋徽;陆俊;;深度学习理论及其在语音识别领域的应用[J];通信对抗;2014年03期
本文关键词:基于深度神经网络的RASR语音识别的研究,由笔耕文化传播整理发布。
本文编号:430948
本文链接:https://www.wllwen.com/kejilunwen/wltx/430948.html