深度学习语音识别系统在嵌入式端的研究
发布时间:2023-02-19 14:11
随着深度学习技术的研究进展,语音识别同样已经完成了从传统模型到深度学习的过渡,本文主要目的是解决移动端离线状态下的语音识别并提高语音识别的精度。本文采用深度学习的方式,利用首先在电脑上训练好的模型移植到树莓派3b+上进行语音识别操作。项目整体结构可以分为声学模型及语言模型两个部分,声学模型由优化后的DFCNN(Deep Fully Convolutional Neural Network)构建训练而成,将声音信号转换成语谱图后通过优化后的DFCNN模型进行训练,训练完成后可以将输入的语音信号转换成拼音。语言模型采用谷歌针对英德互译所构造的模型框架Transformer编码器部分进行模型搭建及训练,将拼音转为汉字。针对上述模型本文还做了相关工作:1、利用深度学习框架Tensorflow构建DFCNN模型和Transformer编码器部分两个模型后完成训练,其中针对DFCNN模型进行优化。同时利用Tensorflow的量化系统将模型量化后,移植于嵌入式平台即搭载linux系统的树莓派3b+上,实现嵌入式端的语音识别。2、为了使样本足够丰富,选择清华大学开源的THCHS30的音频库进行训练。...
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题研究的背景及意义
1.2 国内外研究发展的历程和现状
1.2.1 人工智能发展历程
1.2.2 人工神经网络和深度学习发展历程及现状
1.2.3 语音识别的研究现状
1.3 深度学习在嵌入式端实现的意义
1.4 本文主要工作
1.5 论文组织结构
第2章 深度学习理论
2.1 神经网络
2.2 卷积神经网络CNN
2.2.1 卷积层
2.2.2 池化层
2.2.3 全连接层
2.2.4 softmax回归
2.2.5 损失函数
2.3 循环神经网络RNN
2.3.1 RNN介绍
2.3.2 RNN工作原理
2.4 长短时记忆神经网络LSTM
2.4.1 LSTM的核心思想
2.4.2 LSTM工作流程
2.5 本章小结
第3章 声学模型及语言模型
3.1 模型整体设计
3.2 音频信号预处理
3.2.1 预加重
3.2.2 分帧
3.2.3 加窗
3.3 特征值,语谱图
3.3.1 特征值MFCC
3.3.2 语谱图
3.4 声学模型及训练过程
3.4.1 声学模型简介
3.4.2 CNN模型
3.4.3 DFCNN模型
3.5 DFCNN训练及准备
3.5.1 利用训练样本数据的标记
3.5.2 网络结构训练过程
3.6 语言模型
3.6.1 n-gram语言模型
3.6.2 深度学习语言模型
3.7 基于Attention的语言模型
3.7.1 介绍
3.7.2 Transformer模型架构
3.7.3 编码器
3.7.4 Embedding层和位置编码
3.7.5 多头注意(Multi-Head Attention)
3.7.6 面向位置的前馈网络
3.7.7 标签平滑层
3.8 利用DFCNN及Transformer网络进行识别
3.9 本章小结
第4章 基于电脑端的模型构建及训练
4.1 Tensorflow环境搭建及训练
4.1.1 pycharm+python
4.1.2 Tensorflow-GPU版
4.2 声学模型训练
4.2.1 提取语谱图
4.2.2 利用Tensorflow搭建优化后的DFCNN模型
4.3 模型的输入输出的处理
4.3.1 损失函数及其优化
4.3.2 模型输入的处理及输出解码处理
4.4 语言模型Transformer
4.4.1 Transformer利用Tensorflow进行构建
4.4.2 输入数据进行训练及识别
4.5 本章小结
第5章 硬件环境搭建
5.1 环境配置
5.1.1 安装系统及其他设置
5.1.2 连接网络
5.1.3 连接树莓派桌面
5.1.4 SD卡存储
5.2 模型量化操作
5.2.1 Bazel介绍及安装
5.2.2 Bazel编译Tensorflow源码
5.2.3 Bazel进行量化操作
5.3 音频采集软硬件
5.3.1 Re Speaker及驱动安装
5.3.2 树莓派连接端口
5.3.3 音频采集预处理
5.3.4 音频采集软件
5.4 本章小结
第6章 测试与分析
6.1 测试环境及数据
6.2 测试方法及结果
6.2.1 基于测试集声学模型的实验
6.2.2 基于测试集语言模型的实验
6.2.3 基于采集音频的语音识别系统测试
6.3 测试结果分析
6.4 本章小结
结论
致谢
参考文献
攻读学位期间取得学术成果
本文编号:3746372
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题研究的背景及意义
1.2 国内外研究发展的历程和现状
1.2.1 人工智能发展历程
1.2.2 人工神经网络和深度学习发展历程及现状
1.2.3 语音识别的研究现状
1.3 深度学习在嵌入式端实现的意义
1.4 本文主要工作
1.5 论文组织结构
第2章 深度学习理论
2.1 神经网络
2.2 卷积神经网络CNN
2.2.1 卷积层
2.2.2 池化层
2.2.3 全连接层
2.2.4 softmax回归
2.2.5 损失函数
2.3 循环神经网络RNN
2.3.1 RNN介绍
2.3.2 RNN工作原理
2.4 长短时记忆神经网络LSTM
2.4.1 LSTM的核心思想
2.4.2 LSTM工作流程
2.5 本章小结
第3章 声学模型及语言模型
3.1 模型整体设计
3.2 音频信号预处理
3.2.1 预加重
3.2.2 分帧
3.2.3 加窗
3.3 特征值,语谱图
3.3.1 特征值MFCC
3.3.2 语谱图
3.4 声学模型及训练过程
3.4.1 声学模型简介
3.4.2 CNN模型
3.4.3 DFCNN模型
3.5 DFCNN训练及准备
3.5.1 利用训练样本数据的标记
3.5.2 网络结构训练过程
3.6 语言模型
3.6.1 n-gram语言模型
3.6.2 深度学习语言模型
3.7 基于Attention的语言模型
3.7.1 介绍
3.7.2 Transformer模型架构
3.7.3 编码器
3.7.4 Embedding层和位置编码
3.7.5 多头注意(Multi-Head Attention)
3.7.6 面向位置的前馈网络
3.7.7 标签平滑层
3.8 利用DFCNN及Transformer网络进行识别
3.9 本章小结
第4章 基于电脑端的模型构建及训练
4.1 Tensorflow环境搭建及训练
4.1.1 pycharm+python
4.1.2 Tensorflow-GPU版
4.2 声学模型训练
4.2.1 提取语谱图
4.2.2 利用Tensorflow搭建优化后的DFCNN模型
4.3 模型的输入输出的处理
4.3.1 损失函数及其优化
4.3.2 模型输入的处理及输出解码处理
4.4 语言模型Transformer
4.4.1 Transformer利用Tensorflow进行构建
4.4.2 输入数据进行训练及识别
4.5 本章小结
第5章 硬件环境搭建
5.1 环境配置
5.1.1 安装系统及其他设置
5.1.2 连接网络
5.1.3 连接树莓派桌面
5.1.4 SD卡存储
5.2 模型量化操作
5.2.1 Bazel介绍及安装
5.2.2 Bazel编译Tensorflow源码
5.2.3 Bazel进行量化操作
5.3 音频采集软硬件
5.3.1 Re Speaker及驱动安装
5.3.2 树莓派连接端口
5.3.3 音频采集预处理
5.3.4 音频采集软件
5.4 本章小结
第6章 测试与分析
6.1 测试环境及数据
6.2 测试方法及结果
6.2.1 基于测试集声学模型的实验
6.2.2 基于测试集语言模型的实验
6.2.3 基于采集音频的语音识别系统测试
6.3 测试结果分析
6.4 本章小结
结论
致谢
参考文献
攻读学位期间取得学术成果
本文编号:3746372
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3746372.html