合成语音检测算法研究

发布时间：2020-11-13 08:53

　　作为一种便捷有效的身份认证方案,自动说话人认证系统在电话及网络接入的控制系统中得到了广泛的使用。随着语音合成技术的不断发展,现有的说话人认证系统非常容易受到合成语音的攻击。犯罪分子利用语音合成算法可以生成与注册用户非常类似的语音并利用这些合成语音对说话人认证系统进行欺诈。大量的实验表明现有的说话人认证系统在合成语音的攻击下表现非常脆弱,它无法对合成语音与自然语音进行有效的区分。为了解决这一问题本文对合成语音检测算法进行了重点研究。从检测鲁棒性,检测特征提取以及分类器设计角度进行合成语音检测算法的设计。融合了合成语音检测算法的说话人认证系统可以有效的抵抗合成语音攻击。本文的创新点主要包括:分析了噪声对合成检测的影响,并提出了一种基于加噪训练的鲁棒合成语音检测算法;利用神经网络设计了一种专门适用于合成语音检测任务的特征;提出了一种新型的基于神经网络的合成语音检测打分算法,提高了合成语音检测的准确率。众所周知,环境噪声会极大的影响自动说话人认证系统的表现,因此有必要对噪声环境的下的合成语音检测算法进行有针对性的研究。研究结果表明常用的语音增强算法会降低合成语音检测的准确率。在本文中,我们提出了一种加噪训练的方法,即将含有噪声语音与干净的语音混合在一起进行检测模型的训练,该方法可以一定程度的提高噪声环境下合成语音检测的准确率。在特征提取方面,本文提出了一种基于深度神经网络滤波器的倒谱系数特征(Deep Neural Network Filter Bank Cepstral Coefficients,DNN-FBCC)。与普通的倒谱系数特征不同,DNN-FBCC提取过程中所使用的滤波器是由一个滤波器组神经网络(FilterBankNeuralNetwork,FBNN)利用自然语音与合成语音训练生成的。在FBNN的训练过程中,通过加入各种限制条件,可以使得学习到的权值矩阵具体有与普通滤波器组类似的,非负、带限、频域有序等特征。与人工设计的滤波器组不同,通过FBNN学习得到的滤波器组在不同的频带内有着不同的形状,从而能够更加有效的捕获自然语音与合成语音之间的区别。实验表明,动态DNN-FBCC特征在合成语音检测上的表现优于基线的线性三角波滤波器组倒谱系数特征。在分类器设计方面基于高斯混合模型(Gaussian Mixture Model,GMM)与深度神经网络(Deep Neural Networks,DNN)的分类器,表现较好使用也最为普遍。在合成语音检测过程中,利用经过训练的分类计算输入语音属于自然语音或者合成语音的似然值,并利用对数似然比(Log-LikelihoodRatios,LLR)对输入语音进行打分。很多实验表明在基于LLR的打分算法的分类器中,GMM表现好于DNN,特别在检测合成算法未知的合成语音方面。本文中作者利用动态声学特征训练了一个五层的DNN,并提出了一种新的仅利用自然语音似然值(Genuine Speech Likelihoods,GSL)进行打分的方案,并在数学上证明了 GSL打分方法比LLR方法更适用于合成语音检测任务。在ASVspoof2015数据库上的实验结果表明,与基于LLR打分方法GMM分类器相比较,基于GSL打分算法的DNN分类器可以极大的提高合成语音检测的准确率,在平均等错率(EqualErrorRate,EER)上可以获得接近10倍的提升。将该检测器与自动说话人认证系统相结合,在对合成算法未知的语音检测方面,错误接受率(False Acceptance Rate,FAR)从 38.47%降低到 0.41%。
【学位单位】：北京邮电大学
【学位级别】：博士
【学位年份】：2018
【中图分类】：TN912.3
【部分图文】：

合成语音,算法

正是由于具有这些优势，说话人识别技术或者说声纹识别技术在声控领域，基的信息检索以及法医鉴证领域都有着广泛的应用。作为声纹识别的一个重要自动说话人认证（Ａｕｔｏｍａｔｉｃ?Ｓｐｅａｋｅｒ?Ｖｅｒｉｆｉｃａｔｉｏｎ，ＡＳＶ）在现实生活中被广泛应用??话银行、个人安保等各个领域。??随着语音处理技术的发展，特别是高效的语音合成算法提出，人们可以利用生成与真人语音非常类似的合成语音。语音合成技术一方面为人们的生活带便利以及良好的用户体验，例如提供真声的自动语音应答服务，以及真声的务等。另一方面也对现有ＡＳＶ系统的安全性带来了极大地挑战。特别是近年互联网技术的不断发展以及社交网络的普及壮大，越来越多的用户有意或无自己的音频、视频数据泄露到社交网络平台上。由于用户对个人语音信息保范意识不强，导致犯罪分子可以很容易的通过网络平台获取用户的声音，并利音合成算法生成与用户声音非常近似的合成语音。这些合成语音被用来进行电，或者对用户的电话银行、楼宇门禁等由ＡＳＶ系统进行控制的设备进行攻击，的威胁了用户的生命财产安全。??一，ＡＳＶ，

状态输出,延时单元,隐藏层,变种

ＬＳＴＭ单元的内部结构如图２－６（ｂ）所示，包含三个输入层与两个输出层。其中ｘｒ??表示当前时刻输入，ｃ，表示当前时刻的单元状态输出，ｈ，表示当前时刻的隐藏层输??出。ｃ，与ｂ经过延时单元反馈到ＬＳＴＭ单元的输入端。前一个时刻的单兀状态输出??ｃ，＿ｉ、隐藏输出匕＾与当前时刻输入＼?一起共同决定了当前时刻的输出，从而形成??了一种循环的网络结构，当前的输出不但与当前的输入相关还与前面时刻的输出以??及输入相关，从而充分的利用了信号之间的相关性。??在ＬＳＴＭ单元内部，我们采用了?Ｇｅｒｓ在２０００年提出的一种ＬＳＴＭ变种结构【５３］，??如图２－６（ｂ）所示，状态输出以及隐藏输出可以由公式２－２０—２－２４计算得到。??ｆ（?＝?ａ（Ｗ／ｈ＾＾ｘ＾＋ｂ＾）?（２－２０）??ｉ，?＝?Ｗ．Ｕ，—ｉ，ｘ，］?＋?ｂ，．）?（２－２?〇??ｃ，?＝?ｆ，?？ｃｆ＿！?＋ｉ，?？ｔａｎｈ（Ｗｃ．?？?［ｈ，＿！，ｘ，］?＋ｂｃ）?（２－２２）??

特征图,合成语音,检测算法,分类器

２．４合成语音检测分类器??为了寻求一种能够将自然语音与合成语音特征进行有效区分的分类器，研宄者??们尝试了多种不同的分类算法，例如，ＬＤＡｌ２（）】，ＰＬＤＡ算法，【２｜］等。本节主要介绍了??善于处理帧级特征且检测效果较好的ＧＭＭ－ＬＬＲ分类器Ｉ９］，以及基于“特征图”纹??理的ＬＢＰ－ＳＶＭ分类器１５４１。??２．４．１?ＬＢＰ－ＳＶＭ?分类器??在进行语音合成的过程中，一些比较低层的音频特征比较容易拟合复现，然而??一些比较高层的特征，比如一个时间窗口内的变化性信息，则比较难以拟合，因此??提出了一种基于“特征图”纹理特征的ＬＢＰ－ＳＶＭ分类器。??ＬＢＰ－ＳＶＭ分类器的基本算法如图２－７所示。将一段输入语音进行分帧处理后提??取特征，然后将所有的特征帧组合到一起形成一张“特征图”。该特征阁每一列表示??－帧特征，因此“特征图”的高度即为特征帧的维度，“特征图”的宽度为输入语音??中所包含的特征帧的数目。??由于图像的纹理中包含着丰富的局部动态变化信息，因此利用ＬＢＰ算子对“特??
【相似文献】

相关期刊论文前10条

1 解焱陆;张蓓;张劲松;;基于音高映射合成语音的汉语双字调声调训练[J];清华大学学报(自然科学版);2017年02期

2 王立锋;廖琪梅;苗丹民;;小睡对合成语音感知学习的巩固效应研究[J];中国行为医学科学;2006年06期

3 赵博,蔡莲红;合成语音自然度客观测度[J];计算机工程与应用;2005年07期

4 徐振耀;;聋哑人对话用的手套[J];中国医疗器械杂志;1989年06期

5 玫雅;让合成语音更像真人说话[J];科学之友;2005年09期

6 华一满;;合成语音在智能仪器中的应用[J];电子技术;1992年07期

7 霍飞;阿尼·库珀;;机械合成语音,能最终实现吗?[J];世界科学;2012年02期

8 况鹏;黄海;毛少帅;王康利;;基于TMS320C6678的合成语音检测系统的设计与实现[J];电子设计工程;2016年19期

9 高正平;徐骏宇;黄汉辉;;PWM在合成语音输出电路中的应用[J];电子科技大学学报;2006年01期

10 戈永侃;于凤芹;;后置滤波器参数自适应的语音合成改进算法[J];计算机工程与应用;2017年01期

相关博士学位论文前6条

1 于泓;合成语音检测算法研究[D];北京邮电大学;2018年

2 蔡明琦;融合发音机理的统计参数语音合成方法研究[D];中国科学技术大学;2015年

3 卢恒;基于统计模型与发音错误检测的语音合成方法研究[D];中国科学技术大学;2011年

4 凌震华;基于统计声学建模的语音合成技术研究[D];中国科学技术大学;2008年

5 孟凡博;连续语流中焦点重音的分析与生成[D];清华大学;2013年

6 黄平牧;中文TTS系统中若干关键技术研究[D];北京邮电大学;2008年

相关硕士学位论文前10条

1 张立;计算机合成语音与自然语音鉴别技术的研究[D];宁波大学;2017年

2 徐世鹏;藏语统计参数语音合成的合成语音的音质评测[D];西北师范大学;2015年

3 夏咸军;融合主观评价与反馈的语音合成方法研究[D];中国科学技术大学;2014年

4 王家丽;嵌入式汉语合成语音库的构建与搜索[D];山东大学;2008年

5 张策;汉藏双语合成语音音质评测的研究[D];西北师范大学;2016年

6 姚刚;混合激励模型语音编码算法及其软件仿真[D];青海师范大学;2011年

7 周志平;基于深度学习的小尺度单元拼接语音合成方法研究[D];中国科学技术大学;2017年

8 戈永侃;改进语音合成自然度的研究[D];江南大学;2016年

9 张建利;甚低速率语音编码算法研究[D];西安电子科技大学;2014年

10 宋阳;基于统计声学建模的单元挑选语音合成方法研究[D];中国科学技术大学;2014年

本文编号：2882008

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2882008.html

上一篇：超奈奎斯特速率光传输系统的时频域压缩调制与接收处理技术研究
下一篇：高铁用户的QoS功率分配算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|