基于自回归深度神经网络的单通道语音分离方法研究
发布时间:2020-06-12 16:59
【摘要】:语音分离是语音信号处理领域目前仍具挑战性的重要研究问题之一。在现今计算机和互联网技术得到极大发展的时代,语音分离技术在语音通话和人机语音交互的应用场景中有着重要的意义,直接影响在复杂的声学环境中的使用体验。自20世纪50年代以来,研究者们便已开始研究单通道的语音分离方法,并在深度学习方法出现之前,提出了基于信号处理和统计建模的方法、听觉场景分析、非负矩阵分解和隐马尔可夫模型等传统的单通道语音分离方法。然而,由于各种不合理的假设或人工设计的启发式规则等缺点,这些方法的分离性能受到了局限。而基于深度学习的单通道语音分离方法则不需要这些假设和规则,相反可以利用其强大的神经网络和庞大的数据量对混合语音和目标语音之间的复杂依赖关系进行建模与学习,从而获得优于传统方法的分离性能。最近,随着最新的基于深度学习的深度聚类和排列不变训练的提出,对于传统的基于深度学习方法非常困难的标签排列问题也得到了较好的解决。尽管上述基于深度学习的方法相比传统方法获得了明显的分离性能提升,但是仍然有一些缺点。第一个主要缺点是所使用的网络结构通常尚未充分利用混合语音、目标语音和干扰信号之间的时序上下文信息与依赖关系,并且时序记忆能力有限;第二是通常使用的训练准则,即最小均方误差准则会带来频域过平滑问题;第三是最新的深度聚类和排列不变训练的方法通常使用非因果的网络结构以达到最佳的分离性能,因此时延较大,无法应用于在线分离的场景,而因果的网络结构相比非因果的结构有明显的分离性能差距。因此,针对以上几点,本论文在主流的基于深度学习的单通道语音分离方法的基础上,研究新的解决思路,关注于语音分离的两个子任务,语音增强任务和说话人无关的多说话人语音分离任务,提出了一种基于自回归深度神经网络的单通道语音分离/增强方法。首先,针对主流的基于回归深层神经网络的方法在语音增强任务中,尚未充分利用混合语音和目标语音之间时序上下文信息与依赖关系的缺点,以及使用最小化均方误差准则带来的频域过平滑现象的缺点,本论文提出了一种基于自回归深度神经网络的语音增强方法。通过本论文提出的神经网络,该方法可以对各信号的相互关系进行有效地建模,并且采用了一种结合对抗训练和本论文提出的多步预测训练的模型训练方案,在缓解了训练阶段和增强阶段不匹配的同时,提升了语音增强性能并缓解了频域过平滑问题。其次,针对主流的基于回归深层神经网络的方法在说话人无关多说话人语音分离任务中遇到的标签排列问题,以及深度聚类和排列不变训练的方法在在线分离条件下有应用局限等缺点,从人类听觉感知机制和听觉场景分析的研究成果出发,本论文提出了一种基于自回归深度神经网络的说话人无关多说话人在线语音分离方法。通过本论文提出的倾听阶段和组合阶段的神经网络,该方法可以充分利用混合语音和所有声源信号的时序上下文与相互依赖关系,以一种新的思路解决了标签排列问题,并且在在线语音分离的条件下获得了目前最好的分离性能。最后,本论文在前两个研究成果的基础上进行扩展与改进。通过对语音分离任务做进一步分析,针对目前主流的基于短时傅立叶变换的方法中使用幅度信息但未充分利用相位信息,以及目前最新方法未关注长时说话人信息的缺点,本论文提出了结合波形域端到端建模的波形稀疏编码方法和说话人信息辅助训练的方法以充分利用波形中相位信息,同时提取和记忆长时说话人信息。利用进一步改进的网络结构,该方法最终获得了相比上述提出的方法更好的分离性能。
【图文】:
由目标语音和干扰信号在空气中的叠加产生,并由麦克风等录音设备采集,最后逡逑转换为数字信号进行存储和处理。其中干扰信号是指不属于目标说话人的信号,逡逑包括非语音背景噪声、回声混响以及其他说话人的语音等类型。图1.1展示了在逡逑1逡逑
图2.3邋—个gammatone滤波器组的时域和频域展示(Wang邋et邋aL,邋2006)逡逑图(A)为ganimatone滤波器组的时域展示,图(B)为对应的频域展示。逡逑图2.3展示了一组gammatone滤波器的单位冲激响应和频率响应。可以看出逡逑在低频部分,滤波器有较窄的带宽,并且从频域观察滤波器之间也靠的更近。获逡逑得gammatone滤波器输出后,CASA系统通常会结合Meddis提出的听毛细胞的逡逑传导模型(Meddis,1986,邋1988;Meddisetal.,1990)计算听觉神经中发射率的表示,逡逑以此模拟人类听觉系统中耳蜗基底膜和听觉神经的工作过程。对每个频域的输逡逑出信号分别做分帧处理后,最终获得混合语音信号的听觉神经活动表达,即耳蜗逡逑图(cochleagram)。逡逑通过听觉外围分析得到混合语音信号的时频域表达后,可以提取自相关图逡逑(correlogram)邋(Slaneyetal.,,1990)和互相关图(cross-correlogram)邋(Lyon,1983)等逡逑声学特征。自相关图的计算基于音高(pitch)感知的自相关理论,通过对模拟的逡逑听觉神经活动输出进行自相关计算。根据耳蜗滤波器的输出
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:TN912.3
【图文】:
由目标语音和干扰信号在空气中的叠加产生,并由麦克风等录音设备采集,最后逡逑转换为数字信号进行存储和处理。其中干扰信号是指不属于目标说话人的信号,逡逑包括非语音背景噪声、回声混响以及其他说话人的语音等类型。图1.1展示了在逡逑1逡逑
图2.3邋—个gammatone滤波器组的时域和频域展示(Wang邋et邋aL,邋2006)逡逑图(A)为ganimatone滤波器组的时域展示,图(B)为对应的频域展示。逡逑图2.3展示了一组gammatone滤波器的单位冲激响应和频率响应。可以看出逡逑在低频部分,滤波器有较窄的带宽,并且从频域观察滤波器之间也靠的更近。获逡逑得gammatone滤波器输出后,CASA系统通常会结合Meddis提出的听毛细胞的逡逑传导模型(Meddis,1986,邋1988;Meddisetal.,1990)计算听觉神经中发射率的表示,逡逑以此模拟人类听觉系统中耳蜗基底膜和听觉神经的工作过程。对每个频域的输逡逑出信号分别做分帧处理后,最终获得混合语音信号的听觉神经活动表达,即耳蜗逡逑图(cochleagram)。逡逑通过听觉外围分析得到混合语音信号的时频域表达后,可以提取自相关图逡逑(correlogram)邋(Slaneyetal.,,1990)和互相关图(cross-correlogram)邋(Lyon,1983)等逡逑声学特征。自相关图的计算基于音高(pitch)感知的自相关理论,通过对模拟的逡逑听觉神经活动输出进行自相关计算。根据耳蜗滤波器的输出
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:TN912.3
【相似文献】
相关期刊论文 前10条
1 徐方鑫;;瑞米兹交替算法在语音分离上的应用[J];电脑知识与技术;2012年03期
2 杨海滨;张军;;基于模型的单通道语音分离综述[J];计算机应用研究;2010年11期
3 施剑;杜利民;;基于麦克阵列的实时盲语音分离系统[J];微计算机应用;2008年05期
4 王光艳;张艳;李sチ
本文编号:2709835
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2709835.html