当前位置:主页 > 科技论文 > 网络通信论文 >

噪声环境下说话人识别的鲁棒性研究

发布时间:2020-12-17 21:06
  说话人识别,又称为声纹识别,是一种基于说话人声音中特征信息自动识别或验证说话人身份的技术。说话人识别技术能够让服务系统通过语音来控制用户对受限的服务(如自动银行服务)、信息资源(取决于用户的访问权限)或区域(如政府或研究机构)的访问权限。此外,还可以用于说话人的检测,如音频档案中基于语音的信息检索、识别犯罪者的取证分析及用户设备的个性化。经过多年的研究,目前的说话人识别系统取得了相当令人满意的成绩。但是,系统在实际应用环境下的噪声鲁棒性问题仍亟待解决,这也是说话人识别技术走向日常应用的一大障碍。本文针对该问题做了以下研究:首先,分析了经过主成分分析处理的伽马通频率倒谱系数特征应用到说话人识别中的噪声鲁棒性。在white、babble和destroyerops不同信噪比的噪声环境下,与梅尔频率倒谱系数特征的系统性能做了全面的分析和比较。此外,将主成分分析算法用于伽马通频率倒谱系数的预处理中,并且对处理后的伽马通频率倒谱系数的性能做了实验分析。实验结果表明,主成分分析在一定程度上提高了伽马通频率倒谱系数在低信噪比条件下的系统表现。随后,对目前在各类评测中表现突出的i-vector/PLDA... 

【文章来源】:南京邮电大学江苏省

【文章页数】:75 页

【学位级别】:硕士

【部分图文】:

噪声环境下说话人识别的鲁棒性研究


Mel滤波器组频谱图

示意图,滤波器组,示意图,滤波器


南京邮电大学专业学位硕士研究生学位论文 第三章 基于 GFCC 和 PCA 的说话人识别1 2( ) cos(2 )n btcg t at e f t 其中,cf 为滤波器的中心频率; 表示相位偏移,通常取 0; a 为增益常数器阶数,通常 n 4;b 表示衰减因子,由以下公式给出: 1. 019*24.7*(4.37*1000 1)cb f多个不同中心频率的 Gammatone 滤波器构成一个滤波器组。和基于快速傅时频谱分析类似,利用该滤波器组可以获得原始信号在不同频率分量上的特征学上,可以用等效矩阵带宽来度量每个滤波器的带宽:( ) 24.7 (4 .37/1000 1)ccERB ff其中,Q为渐进因子,通常取值为 9.26449;0B 为最小带宽,通常设为 24.7Hz

【参考文献】:
期刊论文
[1]《机器学习》[J]. 周志华.  中国民商. 2016(03)
[2]语音识别中听觉特征的噪声鲁棒性分析[J]. 李银国,欧阳希子,郑方.  清华大学学报(自然科学版). 2013(08)
[3]基于MDT特征补偿的噪声鲁棒语音识别算法[J]. 胡旭琰,邹月娴,王文敏.  清华大学学报(自然科学版). 2013(06)
[4]结合谱减和缺失特征重建的鲁棒性话者识别[J]. 王宁,陆伟,戴蓓蒨,李辉.  数据采集与处理. 2009(02)



本文编号:2922708

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2922708.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b55ed***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com