当前位置:主页 > 科技论文 > 信息工程论文 >

基于深度神经网络的声纹欺骗检测研究

发布时间:2020-10-31 15:43
   如何防止假冒者的闯入,是声纹识别研究中的重要课题之一。语音合成、语音转换和录音回放是闯入声纹系统的若干手段。随着语音合成和语音转换技术的发展,利用现有的合成技术可以伪造出具有目标说话人声音特性的语音。另一方面,随着高质量录音和播放设备的日益增多,回放录音的质量越来越高,具有较强的攻击性。为了提高声纹识别系统的安全性,近年来声纹欺骗检测引起了人们的关注。目前,关于声纹欺骗检测的研究存在两个局限:一方面,大部分研究人员专注于特征研究,并使用高斯混合模型和前馈全连接网络(Deep neural networks,DNN)作为分类器,缺乏对于不同的基于深度神经网络的分类器的比较。另一方面,部分研究人员使用卷积神经网络和循环神经网络作为分类器,存在计算量较大的问题。针对上述问题,本文对深度神经网络在声纹欺骗检测中的应用展开研究,相关工作总结如下:1.研究基于时延神经网络(Time Delay Neural Network,TDNN)和注意力机制(ATTENTION)的声纹欺骗检测方法。在ASVspoof2015数据集上,TDNN-ATTENTION模型的等错误率(Equal Error Rate,EER)比DNN降低62%。在ASVspoof2017数据集上,相应降低了11%。2.研究基于循环神经网络的声纹欺骗检测方法。本文研究了长短时记忆单元(Long Short-Term Memory,LSTM)和门控循环单元(Gated Recurrent Unit,GRU)两种记忆单元。在ASVspoof2017数据集上,LSTM模型取得10.05%的EER;GRU模型的EER为9.60%,取得本文最好的实验结果,与DNN相比EER降低了20%。3.研究了基于前馈序列记忆神经网络(Feedforward Sequential Memory Networks,FSMN)的声纹欺骗检测方法。FSMN与TDNN和RNN相比具有明显的速度提升。在ASVspoof2017数据集上,简化后的FSMN模型的EER为9.95%,与DNN相比EER降低了17%。在模型大小和等错误率近似相等的情况下,FSMN的计算耗时比LSTM减少了91%。
【学位单位】:华南理工大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP183;TN912.3
【部分图文】:

基于深度神经网络的声纹欺骗检测研究


声纹欺骗检测研究历史

示意图,语音合成系统,示意图,频谱包络


华南理工大学硕士学位论文般是对语音信号进行短时傅里叶变换(ShortTimeFourierTransformation,STFT)得度谱,再去除时间和频率上的周期性,进而得到频谱包络。由于频谱包络的维度较高以通常还需要对频谱包络进行降维,得到常见的梅尔倒谱(Mel Cepstrum)或者线(LineSpectralPairs,LSP)特征。合成时,声码器则是根据基频特征和频谱包络特征构出幅度谱,再结合一定的相位约束条件重构出合成音频。声学模型是语音合成的核心模块。声学建模是利用统计学习的方法,在给定文本时,对语音的声学参数的条件分布进行建模,即对条件概率 ( )进行建模,其中声学特征, 表示文本特征。

示意图,语音转换,示意图


语音转换是一种语音—语音的生成方法,是在保留语音语义的情况下,改变源说话人(Source Speaker)的语音个性特征信息,使转换生成的语音具有目标说话人(TargetSpeaker)的个性特征信息。典型的语音转换系统如图 2-2 所示,其过程分为训练和转换两个阶段。由于语音转换任务难以直接通过修改原始音频来实现,所以语音转换任务采用与语音合成类似的方法,利用声码器提取声学特征再进行分析。训练阶段主要是提取并对齐源和目标语音的声学特征,寻找两者之间的对齐关系,通过训练得到源说话人与目标说话人声学特征之间的映射函数。转换阶段则是根据提供的源语音提取声学特征,经过映射函数输出目标语音声学特征,再利用语音合成的方法获取目标语音。总得来说,语音转换和语音合成一样,具有同样的局限性,即训练的过程中需要先提取低维的频谱包络特征,再进行相应的转换和合成等操作。在这一过程中,频谱的一些结构信息会丢失,因此与真实语音的频谱存在一定的差异性。在实际应用中,由于语音转换的音频自然度较低,因此语音转换的音频相对于语音合成的音频更加容易被识别。
【参考文献】

相关博士学位论文 前1条

1 胡亚军;基于神经网络的统计参数语音合成方法研究[D];中国科学技术大学;2018年


相关硕士学位论文 前4条

1 蒋君妍;面向高维数据的聚类算法改进研究[D];南京邮电大学;2018年

2 王治权;基于注意力机制和改进型RNN的Web文本情感分析研究[D];兰州大学;2018年

3 崔立梅;基于改进的GMM和频率弯折的高质量语音转换算法的研究[D];南京邮电大学;2017年

4 雷文康;基于深度神经网络的音乐流派分类研究[D];华南理工大学;2017年



本文编号:2864149

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2864149.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a0188***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com