基于非负矩阵分解的语音增强算法研究
发布时间:2024-02-04 01:29
语音增强技术作为语音信号前端的预处理方法之一,是目前数字语音信号研究领域内的一个热门方向,旨在从含噪语音信号中重构出接近原始语音信号的纯净信号。按照采集信号的麦克风个数,可将其分为单通道和多通道两种类型。本文采用多通道中的双通道情况进行语音增强的研究,因为它既符合人的双耳特性,又能合理使用语音信号的空间信息。由于机器学习方法的出现,一些新的语音增强算法先后出现。其中,利用非负矩阵分解方法进行语音增强效果良好,且其非负数据特性更具实际含义。论文主要工作是提出了一种无监督的广义互相关与非负矩阵相结合的语音增强算法,并根据实际需求对其不足进行改进,具体如下:1)对几种典型的语音增强方法进行了简单的探究,并介绍了基本非负矩阵分解方法的原理和算法特性。阐述了基于多通道的非负矩阵增强算法和麦克风阵列声源定位方法。2)针对传统单通道语音增强算法没有利用信号的空间信息这一缺陷,提出了一种将广义互相关方法与非负矩阵相结合的语音增强算法。该方法通过对输入混合信号进行字典预学习,然后随机初始化激活系数向量并进行迭代更新,从而可以逐帧推导出输入混合语音信号预学习字典的激活系数。此外,使用了最大池化广义互相关相...
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
本文编号:3894970
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图2.1当x=1时,EUC、KL和IS散度图
图3.2平均GCC相位谱
第三章基于多通道的NMF语音增强算法28图3.2平均GCC相位谱3.4基于GCC-NMF的语音增强算法在本节中,介绍了GCC-NMF分离算法和其软掩码方法,并根据其空间来源进行分组,然后独立地重建每组原子。3.4.1非负矩阵分解当将NMF应用到音频信号中时,假设输入语音信号的幅度....
图3.3NMF在混合语音信号中学习的词典
第三章基于多通道的NMF语音增强算法29Τ|V|WΛHHWI(3.7)ΤΤ|V|HΛWWIH(3.8)其中,矩阵的次方、除法和Hadamard乘积是逐元素计算的,而I是全值为1的矩阵。NMF字典原子通常在每次更新后进行标准化,并且其激活系数会相应缩放。频率f(Hz)(a)字典矩阵....
图4.1GCC-NMF在线实时追踪图形用户界面
第四章基于实时性的GCC-NMF语音增强算法34图4.1GCC-NMF在线实时追踪图形用户界面4.5实验测试与结果分析在本节中,研究了各个指标对实时GCC-NMF的客观语音增强质量和语音清晰度的影响。探究了预学习字典大小和用于预学习的数据量对该方法的影响,然后研究训练和推理迭代次....
本文编号:3894970
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3894970.html