当前位置:主页 > 科技论文 > 网络通信论文 >

深度学习框架下说话人识别研究综述

发布时间:2021-06-17 23:25
  说话人识别由于其独特的方便性、经济性和准确性等优势,已成为人们日常生活与工作中重要的身份认证方式。然而在实际应用场景下,对说话人识别系统的准确性、鲁棒性、迁移性、实时性等提出了巨大的挑战。近年来深度学习在特征表达和模式分类方面表现优异,为说话人识别技术的进一步发展提供了新方向。相较于传统说话人识别技术(如GMM-UBM、GMM-SVM、JFA、i-vector等),聚焦于深度学习框架下的说话人识别方法,按照深度学习在说话人识别中的作用方式,将目前的研究分为基于深度学习的特征表达、基于深度学习的后端建模、端到端联合优化三种类别,并分析和总结了其典型算法的特点及网络结构,对其具体性能进行了对比分析。最后总结了深度学习在说话人识别中的应用特点及优势,进一步分析了目前说话人识别研究面临的问题及挑战,并展望了深度学习框架下说话人识别研究的前景,以期推动说话人识别技术的进一步发展。 

【文章来源】:计算机工程与应用. 2020,56(07)北大核心CSCD

【文章页数】:9 页

【部分图文】:

深度学习框架下说话人识别研究综述


基于GMM-UBM的说话人识别算法

算法,信道,高斯,自适应


为提升对信道的抗干扰能力,Campbell将SVM引入到GMM-UBM的建模中。因为GMM-UBM模型中,在MAP(Maximum A Posterior)[18]自适应环节仅仅是利用UBM模型对目标说话人数据做了均值的自适应。如图3所示,通过将GMM每个高斯分量的均值单独提取出来组成高斯超向量(Gaussian Super Vector,GSV)[15],进而搭建GSV-SVM系统。依靠SVM核函数的强大非线性分类能力,在GMM-UBM的基础上大幅提升了识别的性能。另外加入基于GSV的一些规整算法,例如扰动属性投影(Nuisance Attribute Projection,NAP)[19]、类内方差规整(Within Class Covariance Normalization,WCCN)[20]等,都在一定程度上补偿了由于信道易变形对说话人建模带来的影响。但是,研究发现其识别率进一步提升受到信道因素影响仍较为严重。2.3.3 JFA

算法,文本,语音,差异性


i-vector是基于JFA的简化版,即用一个全因子空间(Total factor matrix,T)同时描述说话人信息和信道信息,然后把语音映射到了一个固定且低维的向量上[17]。由于信道信息的存在,对识别系统产生干扰,甚至严重影响系统的识别准确率,所以通常会采用WCCN、线性判别分析(Linear Discriminant Analysis,LDA)[21]、概率线性判别分析程序(Probabilistic Linear Discriminant Analysis,PLDA)[22]进行信道补偿,如图4所示,但噪声对GMM特征依然有很大影响。i-vector在文本无关说话人识别上表现优秀,但是在文本相关的识别上的表现却不如传统的GMM-UBM框架好。i-vector看似简洁,是由于其舍弃了如文本差异性之类的信息,在文本无关识别中,注册语音和测试语音在内容上的差异性比较大,因此需要抑制这种差异性;但在文本相关识别中,又需要放大训练和识别语音在内容上的相似性,导致说话人的特征相似性被稀疏化,使得区分能力下降。


本文编号:3236115

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/3236115.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户23c70***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com