基于计算听觉场景分析和深度神经网络的混响语音分离
第一章 绪论
1.1 研究背景和意义
人类互相沟通交流最简单最直接的方式就是语言表达。混响存在于我们日常生活的方方面面,古人就有“余音绕梁,三日不绝”来形容混响。但混响也是不容忽视的问题。由于环境的多样性,尤其是在相对封闭的室内空间中,如音乐厅、教室和会议厅等,当麦克风和说话者之间的距离较远的时候,麦克风接收到的语音信号所含混响声[1]就比较明显。混响的存在使接收到的说话者的声音清晰度降低,混淆不清,甚至严重地影响了语音音质的清晰度和可懂度。 近年来,数字信号处理技术得到迅猛发展,并广泛地应用于人们的学习,工作和生活中。随着人们对语音通信质量的需求不断地增加,对通信设备的要求逐渐提高。混响不仅影响人们的听觉,特别是有听觉障碍的患者,而且对通信设备的联络和自动语音识别等系统的性能也产生不可忽视的干扰,严重时可能导致系统的瘫痪。因此,抑制或消除混响的影响,分离目标语音非常必要。 混响语音分离是从房间混响中提取目标信号,这类似于“鸡尾酒会”问题(Cocktail-Party)[2],抑制、降低噪声的干扰,选择并提取感兴趣的声音信号。DSP 技术发展的日臻成熟,语音分离技术被广泛应用于各个领域,比如语音识别、说话人识别、无线电视电话会议、电子耳蜗、助听器研究和声源定位等[3]。语音分离技术的研究是一个科学热点和难点课题,具有较强的理论意义和广阔的发展前景。
........
1.2 研究现状
语音分离主要对提取声音信号的交互方式进行假定,尝试从被污染的语音中分离目标语音。盲源分离(Blind Sources Separation, BSS )[4]是语音信号处理领域中重要的研究方向,它的提出始于20世纪80年代。盲源分离模型的定义是在源信号和传输通道参数都未知的情况下,仅由观察到的混合信号恢复出目标源信号的过程。 1986年,在美国Utah州召开的神经网络计算会议上,Jeanny Herault和Christian Jutten提出了一个递归网络模型,基于类似Hebb学习规则的算法,实现混合信号中独立源信号的盲分离,奠定了后期算法的基础,开启了盲源分离标志性的研究时代。 Comon 于 1994 年首次提出了独立分量分析 (Independent Component Analysis ,ICA)[5][6]的概念,ICA的基本原理是:利用信号的高阶统计量,经过适当的线性变换,使各个源信号之间彼此独立,然后分离出目标源信号。独立分量分析法自提出后就被越来越多的研究人员关注,1995年美国加州圣地亚哥大学的Bell和Sejnowski提出了信息最大化的方法解决盲源分离问题[7]。1996年B. A.Pearlmutter基于ICA的原理,引入最大似然准则函数[8]。1997年Hyvarien提出了快速固定点算法[9],即Fast ICA算法,该算法计算简单且快速收敛,具有良好的稳定性,被广泛应用于盲源分离中。2000年后,对ICA算法的研究取得了更多成果。Herrnann提出了基于源特性的目标函数[10],Eriksson于2003年提出了利用傅立叶系数构建最小化特征函数的ICA算法[11],Almeida于2004年提出了基于互信息的ICA算法[12]。至今, ICA仍是盲源分离的研究热点。 计算听觉场景分析(Computational Auditory Scene Analysis,CASA)[13]能够模拟人类的听觉感知系统,成为盲源分离的重要研究方向。自Cooke提出的早期CASA语音分离系统后,得到了巨大的发展。CACA系统模型基于一个很重要的生理感知能力——听觉掩蔽效应[14],较强能量的声源信号会掩蔽掉较弱能量的声源信号。
.........
第二章 混响的基本知识
混响是生活中很常见的现象。声源发出后,在室内各壁面(包括地面)上连续发生多次反射形成交叉混和在一起的多重回声形成混响。在信号处理中,对相对封闭的空间采集或录制声音信号时,麦克风接收到的信号不仅包括声源直接传输的直达声,还包括声源经其他反射面或障碍物反射得到的叠加反射声波,除此之外还可能包括其他声源产生的干扰叠加信号。
2.1 房间混响
声源发出的声波在房间内传播时,由于天花板、墙壁和地板等障碍物发生的反射,并且经反射后都要被障碍物吸收一部分。反射后语音信号幅度变大,相位产生变化,与声源信号波形相似,但由于后续的反射信号叠加产生“污染”。当声源在室内和相对封闭的空间里停止发声后,声音信号在房间内经过障碍物的多次反射和吸收,到达麦克风的声音信号除了直达声外还包含声音信号经其他反射面传来的反射声音信号,形成一系列叠加信号,这种现象叫做房间混响。一般来讲,麦克风接收到的混响信号包括直达声(声源直接传播到麦克风的声音),前期混响(Early Reverberation,声源经过反射面较短时间到达的反射部分)和后期混响(Late Reverberation,,声源到达后较长时间的反射部分)[24]。室内混响如图 2.1 所示。
.......
2.2 混响的模型
研究混响语音分离问题的过程中,现有的实验条件难以满足要求,因此采用混响语音仿真模型,模拟房间脉冲响应适用最广的就是镜像源(Image-source model, ISM)模型。Allen和Berkley[27]等人基于统计声学的研究,提出经典的ISM模型。镜像源模型依据镜面反射原理,求得镜像声源的反射轨迹。该模型假定房间是矩形的,各障碍物表面都是光滑的,对声波呈镜面反射,且每次反射都损失部分能量。将此现象看作是一系列信号强度逐渐衰弱的镜像源,语音质量是指语音中所含字、词和句的清晰程度。语音质量评价不仅与信号处理有关,而且与心理学、生理学的研究密不可分。在选择语音质量评价时既要有主观感受也要有客观分析。进行语音质量评价需要综合多学科信息,最大可能严谨、科学地分析和评估语音质量。因此,如何准确合理地选择语音质量评价方法,是一个相当棘手的难题。 实现混响语音分离后,需要对实验结果进行科学地评估和比较,分析目标语音分离的效果。语音质量根据混响语音分离的效果从主观和客观两个方面进行评价。主观的效果主要依赖人们的听觉,比较直接、便捷,而客观评价方法通过对生成数据的分析和处理,准确直观地反映语音分离的效果。
.............
第三章 基于计算听觉场景分析的混响语音分离 .... 17
3.1 引言 ..... 17
3.2 算法框架 ....... 17
3.3 实验结果与分析 ..... 29
3.4 本章小结 ....... 33
第四章 基于深度神经网络的混响语音分离 ............ 35
4.1 深度神经网络 ......... 35
4.1.1 深度神经网络的结构 ....... 35
4.1.2 深度神经网络的训练 ....... 36
4.2 基于 DNN 学习的单声道混响语音分离 ...... 37
4.2.1 特征提取 ....... 37
4.2.2 DNN 的模型训练 ............. 38
4.2.3 后期处理 ....... 39
4.3 基于 DNN 分类的双声道混响语音分离 ...... 40
4.3.1 算法原理 ....... 41
4.3.2 特征提取 ....... 42
4.3.3 DNN 分类 ..... 46
4.4 实验结果与分析 ..... 48
4.5 本章小结 ....... 51
第五章 总结与展望 ............ 53
5.1 全文总结 ....... 53
5.2 研究展望 ....... 54
第四章 基于深度神经网络的混响语音分离
4.1 深度神经网络
深度神经网络(Deep Neural Network,DNN)实质上就是拥有多层网络结构的人工神经网络,通常指隐藏层的个数多于1的人工神经网络。早期人工神经网络的延伸和发展形成深度神经网络结构。多伦多大学Hinton[38]教授于2006年发表了一篇介绍新的神经网络模型的论文《Reducing the dimensionality of data with neural networks》以来,深度学习引起了相关研究者的热情和兴趣。其基本原理是建立模拟人脑的认知模型,通过整合低层的特征,生成抽象表达的高层信息,然后利用高层的信息来表现属性、目的或者特征,挖掘数据的特征表达式分布,它能够对大规模的数据进行聚集、分类和处理信息,使计算机仿照人脑认知能力解释数据。近些年来,深度学习理论的研究在语音、图像和人工智能等各个领域都取得了迅速的发展。 深度神经网络通过用数学模型建立和设定一定的激励函数进行有监督或无监督式训练,提取得到数据的网络参数来用于比如特征提取等任务中。大量神经元组成的层级式的拓扑网络结构模拟人的神经网络系统,神经元之间通过不同的权重相互刺激,拟合数据间的复杂关系,挖掘数据间更深层的信息,影响整个神经网络的输出。随着其深度的加深,深度神经网络的优点也越来越凸显,隐藏层的增加大幅度提高其网络的自适应性和自组织能力。
.........
总结
随着人机交互需求的日益增加,在通信和信号处理等领域,从带有噪声和干扰的复杂的观测信号中提取人们所需要的目标信号都有实际的应用。像在房间混响这样复杂的环境中,谐波特征被破坏,观测信号也变得十分复杂,提取目标信号就变的十分困难。混响语音分离一直都是语音信号处理研究的热点和难点,在实时语音通讯设备、助听器、自动语音识别技术等应用中具有广阔的发展前景。 根据本文对混响语音分离初步研究工作,重点研究了两个比较前沿的科学热点领域:计算听觉场景分析和深度神经网络。基于对以上课题的深入研究,提出了三种不同的混响语音分离的模型,主要完成了以下几项任务:
1.详细阐述了混响的基本知识,包括混响语音的产生过程,特征参数和其影响,以及混响的特点。重点分析了混响的数学模型和仿真模型——ISM模型,介绍了混响语音分离后的效果的评估,引出主观和客观的评测指标,分析了这几种指标的实现方法。
2.由于混响环境下系统脉冲响应时间过长,甚至超过信号的平稳时间,谐波结构受到很大的破坏,传统的基音检测和单元标记方法不能适用。针对房间混响条件下基音检测算法性能严重降低,提出了一种基于多基音检测和监督学习的分离算法。算法采用隐马尔可夫模型对选择的通道进行多个基因跟踪,并通过多层感知器对时频单元标记。为提高标记的准确性,对语音和非语音模型分别训练,并使用最大似然比检验选择训练模型,通过实验仿真证明,提出的算法优越于Jin算法,能够保持良好的性能。
3.针对混响和加噪条件下语音可懂度和音质的大幅度降低,提出两种基于DNN的混响语音分离算法。基于DNN的单声道混响语音分离算法通过学习从污染语音到纯净语音的量级频谱图的映射,对深度神经网络进行直接训练,实质上衰减了由混响环境和背景噪声导致的失真。基于DNN的双声道混响语音分离算法则利用深度神经网络强大的学习能力,通过实现时频单元的分类任务,完成目标语音的提取。使用双耳间时差和强差的双声道特征以及Gammatone频率倒谱系数的单声道特征作为分类的主要听觉特征。评估和对比表明基于DNN的混响语音分离算法在各种多声源混响条件下产生良好的分离结果。
.........
参考文献(略)
本文编号:95083
本文链接:https://www.wllwen.com/wenshubaike/lwfw/95083.html