基于深度学习的中文儿童语音识别声学模型研究
发布时间:2021-12-22 20:50
儿童语音识别技术存在巨大的潜在市场,但大部分的语音识别研究都聚焦于成人,当下对儿童语音识别技术的研究较少,且儿童在发音及语言表达方面的特殊性也给儿童语音识别的研究带来了极大的挑战。因此本文从基于深度学习的中文儿童声学建模角度出发,对现有的声学模型进行优化,进一步研究新的儿童声学建模方法来提高中文儿童语音识别的准确率和解码效率。首先,本文围绕深度学习的声学建模技术,研究了时延神经网络(TDNN)和LSTM(Long Short-Term Memory)网络的模型结构,并分析了TDNN-LSTM模型在计算复杂度方面的问题,采用改进的OPGRU(Output-Gate Projected Gated recurrent unit)结构来代替LSTM。实验表明基于TDNN-OPGRU的声学模型,不仅比TDNN-LSTM的声学模型识别性能好,而且比TDNN-LSTM的解码速度快30%。针对儿童在生理学上的特性,通过在网络前段加入CNN(Convolutional Neural Networks)来捕获更有利于儿童语音识别的声学特征信息,最终采用基于CNN-TDNN-OPGRU的儿童语音声学模型,...
【文章来源】:兰州理工大学甘肃省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
三角斜波及频谱图
图 2.3 清音和浊音的频谱图 辐射模型音信号的产生最终需要经过口和唇,将语音的声压波与速度波的比值定义阻抗,它反映了口和唇的辐射效应。于口和唇的辐射大部分集中在高频阶段,所以辐射模型ZR 可以用高通滤,表示式为:10(1 z ) ZR R (2.7为辐射效应造成的能量损耗与辐射阻抗 R(z)成正比,其频响曲线简化为器。在实际语音信号分析时,也会采用“预加重”技术来恢复原有信号上,可以将语音信号模型表示为激励、声道、辐射函数的级联,表达式为X (z) U ( z )V ( z ) R( z )(2.8音信号的预处理
的采样在信号最高频率的两倍以上时,可以保证信息还原。实采样频率一般在 8~32KHz 之间。指在幅度上对语音进行离散处理,由于语音信号经过采样后的化,但是在幅度上还是连续的,所以需要进行量化,将语音波实际中,量化度一般为 8bit 或 16bit。重技术[31]是为了提高语音信号高频部分的分辨率。由于语音信应的影响,高频部分的衰减相较低频部分衰减要大很多,因此来增强语音信号的高频分辨率,其表达式为:1(z)=1- z H H (z)为一阶 FIR 高通滤波器,对于浊音, 通常为 0.95 或 0. 取值一般更小。 时刻输入为 x ( n ),则经过预加重后的结果如公式 2.10 所示:y ( n) x( n) x( n 1)(
【参考文献】:
期刊论文
[1]语言发音模型研究综述[J]. 张金光. 计算机工程与应用. 2018(12)
[2]基于短时能量的语音端点检测算法研究[J]. 张仁志,崔慧娟. 电声技术. 2005(07)
硕士论文
[1]RNN-DNN语音识别系统研究及其应用[D]. 吴俊峰.华南理工大学 2018
本文编号:3547067
【文章来源】:兰州理工大学甘肃省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
三角斜波及频谱图
图 2.3 清音和浊音的频谱图 辐射模型音信号的产生最终需要经过口和唇,将语音的声压波与速度波的比值定义阻抗,它反映了口和唇的辐射效应。于口和唇的辐射大部分集中在高频阶段,所以辐射模型ZR 可以用高通滤,表示式为:10(1 z ) ZR R (2.7为辐射效应造成的能量损耗与辐射阻抗 R(z)成正比,其频响曲线简化为器。在实际语音信号分析时,也会采用“预加重”技术来恢复原有信号上,可以将语音信号模型表示为激励、声道、辐射函数的级联,表达式为X (z) U ( z )V ( z ) R( z )(2.8音信号的预处理
的采样在信号最高频率的两倍以上时,可以保证信息还原。实采样频率一般在 8~32KHz 之间。指在幅度上对语音进行离散处理,由于语音信号经过采样后的化,但是在幅度上还是连续的,所以需要进行量化,将语音波实际中,量化度一般为 8bit 或 16bit。重技术[31]是为了提高语音信号高频部分的分辨率。由于语音信应的影响,高频部分的衰减相较低频部分衰减要大很多,因此来增强语音信号的高频分辨率,其表达式为:1(z)=1- z H H (z)为一阶 FIR 高通滤波器,对于浊音, 通常为 0.95 或 0. 取值一般更小。 时刻输入为 x ( n ),则经过预加重后的结果如公式 2.10 所示:y ( n) x( n) x( n 1)(
【参考文献】:
期刊论文
[1]语言发音模型研究综述[J]. 张金光. 计算机工程与应用. 2018(12)
[2]基于短时能量的语音端点检测算法研究[J]. 张仁志,崔慧娟. 电声技术. 2005(07)
硕士论文
[1]RNN-DNN语音识别系统研究及其应用[D]. 吴俊峰.华南理工大学 2018
本文编号:3547067
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3547067.html