基于i-vector的电子伪装语音鲁棒还原方法研究
发布时间:2022-02-14 12:35
语音的电子伪装是指采用变声设备或语音处理软件改变说话人的个性特征,以达到故意隐藏该说话人身份的目的。电子伪装语音还原是指通过技术手段将伪装语音变回原声,这对基于语音的身份鉴别有重要意义。本文将频域和时域伪装语音的还原问题抽象为伪装因子的估计问题,通过基于i-vector的自动说话人确认方法估计伪装因子,并引入对称变换进一步提高估计效果。该方法借助于i-vector的噪声鲁棒性,提高了真实含噪场景下伪装因子的估计精度,从而改进了噪声条件下电子伪装语音的还原效果。在干净语音库TIMIT上训练i-vector并在含噪语音库VoxCeleb1上对本文方法进行测试,结果表明,伪装因子估计的错误率从基线系统的9.19%降低为4.49%,还原语音在自动说话人确认等错误率和听觉感知方面也取得了提升。
【文章来源】:数据采集与处理. 2020,35(05)北大核心CSCD
【文章页数】:12 页
【部分图文】:
利用基频比确定伪装因子原理图
基于GMM-UBM和i-vector的说话人确认方法是目前发展比较成熟且被广泛采用的说话人确认模型,原理如图2所示。该模型首先对提取的语音信号的特征(如MFCC等)在大量语料上训练一组GMM-UBM作为通用背景。在注册和测试阶段,从待测语音S中提取特征,并将这些特征作为观测值对训练好的GMM-UBM做最大后验概率估计(Maximum a posteriori,MAP),得到高斯超矢量,并进一步提取说话人的特征i-vector,用λ表示。通过对比注册语句和测试语句所提取的i-vector的相似程度,即可完成2条语句是否来自同一个说话人的判决任务。基于说话人确认系统的伪装因子估计方法如图3所示。该方法通过遍历伪装因子的理论取值范围,对待测伪装语音进行逐一还原,然后说话人确认系统对每条还原语音与伪装嫌疑人的语音进行打分,得分最高的还原语音对应的伪装因子即认为是正确的伪装因子。本文中说话人确认模型选择了通过GMM-UBM提取的i-vector,具体步骤如下:
基于说话人确认系统的伪装因子估计方法如图3所示。该方法通过遍历伪装因子的理论取值范围,对待测伪装语音进行逐一还原,然后说话人确认系统对每条还原语音与伪装嫌疑人的语音进行打分,得分最高的还原语音对应的伪装因子即认为是正确的伪装因子。本文中说话人确认模型选择了通过GMM-UBM提取的i-vector,具体步骤如下:(1)训练阶段,利用伪装嫌疑人Sj的正常语音进行注册,通过说话人确认中的特征提取部分计算得到该说话人的注册特征λj;
【参考文献】:
期刊论文
[1]语音转换技术研究现状及展望[J]. 张雄伟,苗晓孔,曾歆,孙蒙,曹铁勇. 数据采集与处理. 2019(05)
[2]基于DC-CNN的电子伪装语音还原研究[J]. 王永全,施正昱,张晓. 计算机科学. 2019(08)
[3]骨导麦克风语音盲增强技术研究现状及展望[J]. 张雄伟,郑昌艳,曹铁勇,杨吉斌,邢益搏. 数据采集与处理. 2018(05)
[4]基于DTW模型补偿的伪装语音说话人识别研究[J]. 李燕萍,陶定元,林乐. 计算机技术与发展. 2017(01)
[5]电子伪装语音的变声规律研究[J]. 张桂清,金怡珠,刘红伟,崔效义. 证据科学. 2010(04)
硕士论文
[1]电子伪装语音下的说话人识别方法研究[D]. 陶定元.南京邮电大学 2016
本文编号:3624566
【文章来源】:数据采集与处理. 2020,35(05)北大核心CSCD
【文章页数】:12 页
【部分图文】:
利用基频比确定伪装因子原理图
基于GMM-UBM和i-vector的说话人确认方法是目前发展比较成熟且被广泛采用的说话人确认模型,原理如图2所示。该模型首先对提取的语音信号的特征(如MFCC等)在大量语料上训练一组GMM-UBM作为通用背景。在注册和测试阶段,从待测语音S中提取特征,并将这些特征作为观测值对训练好的GMM-UBM做最大后验概率估计(Maximum a posteriori,MAP),得到高斯超矢量,并进一步提取说话人的特征i-vector,用λ表示。通过对比注册语句和测试语句所提取的i-vector的相似程度,即可完成2条语句是否来自同一个说话人的判决任务。基于说话人确认系统的伪装因子估计方法如图3所示。该方法通过遍历伪装因子的理论取值范围,对待测伪装语音进行逐一还原,然后说话人确认系统对每条还原语音与伪装嫌疑人的语音进行打分,得分最高的还原语音对应的伪装因子即认为是正确的伪装因子。本文中说话人确认模型选择了通过GMM-UBM提取的i-vector,具体步骤如下:
基于说话人确认系统的伪装因子估计方法如图3所示。该方法通过遍历伪装因子的理论取值范围,对待测伪装语音进行逐一还原,然后说话人确认系统对每条还原语音与伪装嫌疑人的语音进行打分,得分最高的还原语音对应的伪装因子即认为是正确的伪装因子。本文中说话人确认模型选择了通过GMM-UBM提取的i-vector,具体步骤如下:(1)训练阶段,利用伪装嫌疑人Sj的正常语音进行注册,通过说话人确认中的特征提取部分计算得到该说话人的注册特征λj;
【参考文献】:
期刊论文
[1]语音转换技术研究现状及展望[J]. 张雄伟,苗晓孔,曾歆,孙蒙,曹铁勇. 数据采集与处理. 2019(05)
[2]基于DC-CNN的电子伪装语音还原研究[J]. 王永全,施正昱,张晓. 计算机科学. 2019(08)
[3]骨导麦克风语音盲增强技术研究现状及展望[J]. 张雄伟,郑昌艳,曹铁勇,杨吉斌,邢益搏. 数据采集与处理. 2018(05)
[4]基于DTW模型补偿的伪装语音说话人识别研究[J]. 李燕萍,陶定元,林乐. 计算机技术与发展. 2017(01)
[5]电子伪装语音的变声规律研究[J]. 张桂清,金怡珠,刘红伟,崔效义. 证据科学. 2010(04)
硕士论文
[1]电子伪装语音下的说话人识别方法研究[D]. 陶定元.南京邮电大学 2016
本文编号:3624566
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3624566.html