基于深度学习的语音重播攻击检测
发布时间:2022-02-09 07:35
重播他人语音以冒充他人身份会为社会安全带来严重威胁。已有的研究及实践均证明目前的说话人识别系统(Automatic Speaker Recognition,ASR)很难抵抗重播攻击。同时,这种攻击方式还具有便捷低廉的特点。因此,语音重播攻击相关的安全问题研究具有重要的现实意义。然而,目前此类研究仍然相对较少,并且一般集中于利用传统的信号处理方法进行重播语音检测,其特征提取较为复杂且不稳定,具有较大的局限性。为此,本文在数据智能驱动下的深度学习框架内对语音重播攻击的检测算法进行研究,旨在有效区分重播语音和原始语音。具体内容如下:1.提出基于卷积神经网络(Convolutional Neural Network,CNN)模型的语音重播攻击检测算法。所提出的网络结构依据语音信号的时频特征进行特殊设计,与时频图的特征分布特点高度契合,能将训练参数分配到更合理的地方,从而能使用更有效的特征来训练更紧凑的参数,因而大大降低了模型过拟合风险。同时,由于已有的算法通常缺乏通用性,即没有考虑对抗不同录音场景的鲁棒性,本文针对不同的说话人、不同的文本内容、不同的录制设备及不同的录制距离等核心影响因子进行系...
【文章来源】:广东技术师范大学广东省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
语音特征提取过程
图 2-3 语音信号预加重前后的频谱Fig.2-3 The spectrum before and after pre-emphasis.3 加窗语音信号的特性如振幅、频率常常随着时间改变,是一种非平稳信号。但在短0~30 毫秒)内信号参数变化相对很小,可以认为是平稳的,这称为语音的短时加窗的目的就是将语音信号分为很多个短时段,每一个短时段称为一帧,在每以认为语音是平稳的,分帧是通过窗函数来进行,如式(2-2)。 mnQ Tx( m)w(nm)(常用的窗函数有:(1)矩形窗 ,101()nNw n(
图 2-4 窗函数形状Fig.2-4 Shapes of window functions2.2.4 语音重录过程简介语音重录过程如图 2-5 所示。语音重录包含三个步骤:原始语音通过设备播过空气传播,最后再由录音设备录制。其中经历的变换过程包括:D/A 转换,模(空气)传播,A/D 转换。重录导致语音数据一定程度的失真,此失真包括幅度时间轴上的线性伸缩,主要由 DA/AD 变换时采用的设备、录制环境及录制距离等成。幅度失真包含能量的变化以及引入的噪声,线性伸缩的大小由重录过程中使件如声卡以及采用的采样率等决定。失真模型可表示为公式(2-6)。 (n) () nx xx (n)、 x (n)是是重录语音与原始语音的 n 个样本, 是幅值变换因子, 是线性伸缩因子, 是叠加线性噪声。
【参考文献】:
期刊论文
[1]基于i-vector和深度学习的说话人识别[J]. 林舒都,邵曦. 计算机技术与发展. 2017(06)
[2]基于重组超矢量的GMM-SVM说话人辨认系统[J]. 欧国振,孙林慧,薛海双. 计算机技术与发展. 2017(07)
[3]基于DTW模型补偿的伪装语音说话人识别研究[J]. 李燕萍,陶定元,林乐. 计算机技术与发展. 2017(01)
本文编号:3616618
【文章来源】:广东技术师范大学广东省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
语音特征提取过程
图 2-3 语音信号预加重前后的频谱Fig.2-3 The spectrum before and after pre-emphasis.3 加窗语音信号的特性如振幅、频率常常随着时间改变,是一种非平稳信号。但在短0~30 毫秒)内信号参数变化相对很小,可以认为是平稳的,这称为语音的短时加窗的目的就是将语音信号分为很多个短时段,每一个短时段称为一帧,在每以认为语音是平稳的,分帧是通过窗函数来进行,如式(2-2)。 mnQ Tx( m)w(nm)(常用的窗函数有:(1)矩形窗 ,101()nNw n(
图 2-4 窗函数形状Fig.2-4 Shapes of window functions2.2.4 语音重录过程简介语音重录过程如图 2-5 所示。语音重录包含三个步骤:原始语音通过设备播过空气传播,最后再由录音设备录制。其中经历的变换过程包括:D/A 转换,模(空气)传播,A/D 转换。重录导致语音数据一定程度的失真,此失真包括幅度时间轴上的线性伸缩,主要由 DA/AD 变换时采用的设备、录制环境及录制距离等成。幅度失真包含能量的变化以及引入的噪声,线性伸缩的大小由重录过程中使件如声卡以及采用的采样率等决定。失真模型可表示为公式(2-6)。 (n) () nx xx (n)、 x (n)是是重录语音与原始语音的 n 个样本, 是幅值变换因子, 是线性伸缩因子, 是叠加线性噪声。
【参考文献】:
期刊论文
[1]基于i-vector和深度学习的说话人识别[J]. 林舒都,邵曦. 计算机技术与发展. 2017(06)
[2]基于重组超矢量的GMM-SVM说话人辨认系统[J]. 欧国振,孙林慧,薛海双. 计算机技术与发展. 2017(07)
[3]基于DTW模型补偿的伪装语音说话人识别研究[J]. 李燕萍,陶定元,林乐. 计算机技术与发展. 2017(01)
本文编号:3616618
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3616618.html