基于深度学习的移动端语音识别系统设计
发布时间:2024-03-04 04:23
随着深度学习技术研究的深入,语音识别同样已经完成了从传统模型到深度学习的过渡,本文主要实现移动端离线状态下的语音识别并提高语音识别的精度。文中采用深度学习的方式,将在电脑上训练好的模型移植到树莓派3b+上进行语音识别操作。项目整体结构可以分为声学模型及语言模型两个部分,同语音识别中其他主流模型进行对比测试后,得到的结论是声学模型DFCNN和语言模型Transformer的编码器部分都适合移植于嵌入式端,在成本远低于市场上既有语音识别产品的情况下,识别效果和速度都非常接近。
【文章页数】:5 页
【部分图文】:
本文编号:3918892
【文章页数】:5 页
【部分图文】:
图1语音识别系统框图
预测时利用优化后的DFCNN模型生成输入语音对应的拼音后,再通过Transformer编码器生成的语言模型进行拼音-汉字转换,最后得到预测出的汉字。语音识别系统框图如图1所示。1.1音频信号预处理
图2音频样本数据预处理流程图
1.1音频信号预处理音频信号的预处理过程主要分为三个步骤:预加重、分帧和加窗。音频预处理流程如图2所示。
图3帧长与帧移关系图
经过研究后发现15~30ms间的音频信号几乎没有波动,因此需要对音频信号进行分帧操作,最好的办法就是通过加窗将音频信号转换为大量的短时平稳信号,帧长与帧移的关系如图3所示。(3)加窗
图4语谱图的生成过程
由前文可知,音频信号经过预处理之后仍需要进行去噪取模取对数操作,具体的语谱图生成过程如图4所示。DFCNN中通过卷积神经网络对图像进行特征值提取,而本设计采用同样的方法将音频信号转换为语谱图。将预处理后得到的时域音频信号转换为语谱图,需对信号进行短时离散傅里叶变换,计算方法如下:
本文编号:3918892
本文链接:https://www.wllwen.com/kejilunwen/wltx/3918892.html