当前位置:主页 > 科技论文 > 信息工程论文 >

基于CGRU多输入特征的地空通话自动切分

发布时间:2021-11-04 02:21
  自动语音切分是语音识别、声纹识别、语音降噪等语音应用中非常重要的预处理环节,切分算法的优劣直接影响了系统输出结果的精度.在空管地空通话中,传输信道噪声、天气因素以及说话人工作状态均会对语音信号产生影响,进而在一定程度上影响语音切分性能.在分析空管地空通话语音特性基础上,提出了一种基于CGRU网络多输入特征的自动语音切分方法.该方法结合地空通话的特点,采用深度学习的方法进一步提取语音信号的时域和频域非线性特征,将语音信号帧分类为语音帧、结束帧以及其他帧三类.实验对比了多种语音特征作为输入对切分效果的影响,同时验证了GMM、CNN、CLDNN、CGRU等切分算法在真实地空通话测试集上的表现,并提出了一种简单预测结果平滑算法.实验结果表明,文中提出的自动切分方法在地空通话中具有明显优势,分类模型的AUC值达到了0.98. 

【文章来源】:四川大学学报(自然科学版). 2020,57(05)北大核心CSCD

【文章页数】:7 页

【部分图文】:

基于CGRU多输入特征的地空通话自动切分


地空通话的特点

网络结构图,卷积,网络结构,网络参数


本文提出的CGRU网络结构如图2(a)所示,网络参数细节如表1所示.CGRU网络改进了前期研究[6]CNN网络结构(图2(c))中的卷积模块,采用3×3的小卷积核,在保证足够感受野的前提下,减少了网络参数,并且在卷积过程中加入batch normalization层,以提升训练速度和模型精度.并且在卷积模块之后加入GRU网络层捕获音频信号的时序变化,使得网络的特征提取能力显著提升.在实验阶段,本文也实现了文献[9]中的RAW CLDNN(图2(b))方法,与之相比本文提出的MFE输入特征经过音频信号预处理更加适用于复杂环境,而原始波形作为输入易受环境影响,泛华能力相对较弱.并且,使用GRU网络层代替LSTM,可以缩减训练时间,降低训练难度,更适用于工程应用.实验结果表明,CGRU网络结构中的CNN卷积模块可以抽取地空通话语音中的语音帧、结束帧以及不稳定的噪声帧的局部特征,GRU门控循环单元能捕捉帧内信息短时变化的依赖关系,能较好的完成帧分类任务.并且该网络结构简单,模型总参数不足40K,能够满足实时切分的需要.

对比图,对比图,准确率,曲线


从实验结果来看,基于GMM无监督学习的webrtcvad并不适用于复杂环境的地空通话语音切分,在仿真测试集上准确率仅有83.2%,加入平滑算法后准确率约提升了5%,在不稳定噪声环境下预测结果抖动较大.在基于深度学习的方法中,基于LPS特征的CNN、CGRU网络以及基于MF-CC的CGRU网络准确率在90%左右,经平滑后效果提升约3%,帧之间预测结果也存在抖动.基于Fbank特征的CGRU网络模型准确率表现良好,AUC值达到了0.95,平滑后切分准确率达到98%.基于原始波形输入的Raw CLDNN网络在地空通话中准确率仅有82.3%,经平滑后准确率提升了约9%,幅度较大,ROC曲线对比图如图3所示.经分析,该方法使用原始采样数据作为输入,原始采样数据在地空通话中受不稳定噪声、采样设备、说话人等因素的影响较大,导致测试集输出结果与训练集差别较大,同时,该网络参数较多,时间代价约是其他网络的一倍,并不适用于地空通话的切分.基于MFE联合特征的CGRU网络在仿真测试集上表现最好,分类器准确率达到98.5%,AUC值为0.98,经平滑后切分准确率约99.3%,预测输出较稳定.由图3可知,本文提出的MEF联合特征在音频信息有限的单帧预测策略上具有明显优势,并且CGRU网络结构在进一步深入挖掘音频信号隐藏信息的同时,优化了模型参数,缩短了模型预测的时间代价,是一种稳定、高效的地空通话实时切分方法.


本文编号:3474801

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3474801.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户21d66***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com