当前位置:主页 > 科技论文 > 信息工程论文 >

复杂环境下基于深度学习的语音信号预处理方法研究

发布时间:2020-07-03 00:18
【摘要】:近年来,由深度学习引发的人工智能热潮正在影响和改变着人们的生活方式,人们不再满足单一文本、指令的人机交互,而是期待语音交互这种更加方便、快捷的交流方式。语音则成为其中不可或缺的信息媒介。然而语音在实际的传输过程中,背景噪声和人声干扰都会对语音造成一定的影响,使得语音的质量和可懂度下降,同时也给后续的应用带来挑战,比如语音识别、说话人识别等。在复杂的应用环境下,作为语音类应用的前端接口,语音信号预处理显得尤为重要,其可以细分出处理噪声干扰的语音增强和处理人声干扰的语音分离。语音增强是指语音信号被噪声干扰时,对噪声进行抑制,从混合信号中提取有用的语音信号的技术。一般的,语音增强所考虑的噪声类型是不涵盖类人声的干扰信号的。语音分离则是用来处理人声干扰的前端处理技术,旨在多说话人的场景下提取出目标说话人的语音信号而去除其他说话人的语音信号,应用场景如“鸡尾酒会问题”。对于语音增强任务来说,可分为传统语音增强算法和基于深度学习的语音增强算法。传统语音增强算法多是无监督的,通常需要对语音信号和噪声信号各自的特性及彼此之间的作用关系做出一定的假设。传统的无监督语音增强算法可以较好地处理平稳噪声,但是却难以处理非平稳噪声。近几年来,深度学习技术在多个领域得到了成功应用,也在语音增强领域得到了较多的关注和研究。早期研究发现,基于DNN(Deep Neural Network)的语音增强算法相较于传统语音增强算法可以取得很大的性能提升,尤其是在处理非平稳噪声的情况下。然而,基于DNN的有监督语音增强算法在实际应用中面对真实噪声场景、说话风格差异、低信噪比(Signal-to-NoiseRatio)时存在着推广性问题,如语音丢失、低可懂度等。针对这些问题,本文将围绕着训练数据构造、模型融合和新型模型结构设计来提升基于深度学习的语音增强算法在复杂的实际环境下的推广能力,着力解决低信噪比下的语音失真问题和对噪声类型的泛化问题。首先,在己有的DNN语音增强算法框架下,基于对低信噪比下训练数据的分析,利用语音端点检测(Voice Activity Detection,VAD)算法对训练数据进行处理,得到侧重点不同的两个DNN语音增强模型。测试阶段基于不同增强模型之间的互补性,通过VAD对两个DNN增强模型进行融合,来提升低信噪比下的语音增强性能,使得模型既能消除噪声又能保留必要的目标语音。其次,针对基于深度学习的语音增强模型的推广性问题,本文提出了全新的渐进式语音增强框架。该框架下的渐进式学习能够按照信噪比逐步递增的方式对语音增强问题进行分解,使得网络内部的功能得以明确,这有别于传统的“黑箱子”式的神经网络训练。在渐进式学习框架下,近一步提出密集连接的网络结构来提升模型的学习能力,使之能够训练出更深层、更好的语音增强模型。渐进式学习在DNN和长短时记忆网络(Long Short-Term Memory)两种网络结构中都取得了成功应用,提升了语音增强模型在实际应用场景下的推广能力。对于语音分离任务来说,也可分为传统的语音分离算法和基于深度学习的语音分离算法。传统的语音分离算法多是基于计算听觉场景分析(CASA),CASA是建立在听觉场景分析的感知理论基础上,利用聚类约束(grouping cue)如基音频率(pitch)等特征线索对同一说话人的语音进行追踪。基于深度学习的语音分离算法可以细分为说话人相关的语音分离和说话人无关的语音分离。基于深度学习的说话人相关模型具有较好的分离效果,本文在说话人相关的场景下研究噪声环境下的语音分离和目标说话人训练数据受限情况下的语音分离。首先,在噪声环境下,基于深度学习的说话人相关语音分离模型把噪声干扰和人声干扰统一看作是对目标语音的干扰,利用神经网络对二者联合建模处理,实验过程中发现两个干扰之间存在互补性。其次,针对目标说话人训练数据不足的应用场景,本文提出两阶段的语音分离方案来解决数据问题,并在CHiME-5比赛的真实数据上进行了实验验证。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TN912.3
【图文】:

增强算法,浅层,神经网络,频域特征


更新网络参数。由于语音和噪声在频域上更具有区分性,有学者在后续的研究中逡逑使用浅层神经网络以频域特征为输入去预测干净语音(Sorensen,邋1991;邋Wan邋etal.,逡逑1999;邋Xieetal.,邋1994),如图1.4所示。在训练阶段,先对带噪语音和干净语音提逡逑取频域特征,基于最小均方误差准则,以带噪语音的频域特征为输入,以干净语逡逑音的频域特征为目标,利用反向错误传播算法来更新网络参数;在增强测试阶逡逑段,训练好的模型以带噪语音的频域特征为输入,得到的模型输出即为对干净语逡逑音的频域特征的估计。有了频域特征估计之后,结合原始语音的相位信息进行逆逡逑傅里叶变换(IDFT),最后使用重叠相加法(Allen,邋1977)得到降噪后的时域语音逡逑信号。逡逑干净语音逡逑…逡逑IDFT&重叠相加邋^逦-j逡逑逦1:邋_邋I逡逑浅层神经网络邋|相位逡逑逦邋邋I逡逑n逦|逡逑I逡逑逦邋邋邋a逡逑加窗分帧&DFT邋逦"逡逑tttti邋-邋mi邋丨逡逑带噪语音逡逑图1.4基于浅层神经网络的语音增强算法(王青,2018)。逡逑10逡逑

系统框图,音分,系统框图,频域特征


更新网络参数。由于语音和噪声在频域上更具有区分性,有学者在后续的研究中逡逑使用浅层神经网络以频域特征为输入去预测干净语音(Sorensen,邋1991;邋Wan邋etal.,逡逑1999;邋Xieetal.,邋1994),如图1.4所示。在训练阶段,先对带噪语音和干净语音提逡逑取频域特征,基于最小均方误差准则,以带噪语音的频域特征为输入,以干净语逡逑音的频域特征为目标,利用反向错误传播算法来更新网络参数;在增强测试阶逡逑段,训练好的模型以带噪语音的频域特征为输入,得到的模型输出即为对干净语逡逑音的频域特征的估计。有了频域特征估计之后,结合原始语音的相位信息进行逆逡逑傅里叶变换(IDFT),最后使用重叠相加法(Allen,邋1977)得到降噪后的时域语音逡逑信号。逡逑干净语音逡逑…逡逑IDFT&重叠相加邋^逦-j逡逑逦1:邋_邋I逡逑浅层神经网络邋|相位逡逑逦邋邋I逡逑n逦|逡逑I逡逑逦邋邋邋a逡逑加窗分帧&DFT邋逦"逡逑tttti邋-邋mi邋丨逡逑带噪语音逡逑图1.4基于浅层神经网络的语音增强算法(王青,2018)。逡逑10逡逑

【相似文献】

相关期刊论文 前10条

1 石玲;;基于计算机声卡的谱相减语音增强系统分析[J];信息与电脑(理论版);2010年02期

2 孙涛;;基于计算机声卡的谱相减语音增强系统分析[J];南昌教育学院学报;2010年05期

3 张晓雷;;基于深度学习的语音增强简述[J];网络新媒体技术;2019年02期

4 李璐君;屈丹;;一种基于组合深层模型的语音增强方法[J];信息工程大学学报;2018年04期

5 袁文浩;娄迎曦;梁春燕;夏斌;;利用生成噪声提高语音增强方法的泛化能力[J];电子学报;2019年04期

6 阴法明;唐於烽;;基于深度置信网络的语音增强算法[J];电子器件;2018年05期

7 余华;唐於烽;赵力;;基于改进深度置信网络的语音增强算法[J];数据采集与处理;2018年05期

8 薛慧君;李盛;路国华;张杨;焦腾;王健琪;荆西京;;提升小波用于非接触语音增强算法的研究[J];医疗卫生装备;2013年05期

9 胡海波;刘柏森;许银;;基于小波变换的语音增强研究[J];黑龙江工程学院学报(自然科学版);2011年01期

10 褚伟;;基于条件深度卷积生成对抗网络的语音增强研究[J];智能计算机与应用;2019年04期

相关会议论文 前10条

1 王世伟;胡笑浒;郑成诗;李晓东;;一种改进的基于能量差语音增强算法[A];中国声学学会第九届青年学术会议论文集[C];2011年

2 江峰;李晓东;;适用于抑制非平稳背景噪声的语音增强算法[A];中国声学学会2003年青年学术会议[CYCA'03]论文集[C];2003年

3 阎兆立;杜利民;;维纳后滤波语音增强算法研究[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年

4 童峰;许肖梅;洪青阳;;一种带阶数估计的语音增强算法[A];第八届全国人机语音通讯学术会议论文集[C];2005年

5 袁榕嵘;吴鸣;杨军;;双麦克风语音增强快速算法[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年

6 国雁萌;;一种极低信噪比条件下的语音增强方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年

7 李海峰;韩纪庆;郑铁然;;元音、辅音粗判自适应电话语音增强方法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

8 高登峰;杨波;郭东岳;;基于深度神经网络的地空通话语音增强方法[A];第一届空中交通管理系统技术学术年会论文集[C];2018年

9 楼厦厦;郑成诗;李晓东;;滤波器权值约束对自适应零限波束形成语音增强算法鲁棒性影响分析[A];中国声学学会2007年青年学术会议论文集(上)[C];2007年

10 任玉宝;;基于联合字典学习的语音增强算法[A];中国声学学会水声学分会2019年学术会议论文集[C];2019年

相关重要报纸文章 前3条

1 ;NMS Sonata Ⅲ/Studio Sound级语音增强系统话音更清晰[N];中国计算机报;2003年

2 本报记者 马楠;NMS市场目标转向无线服务提供商[N];通信产业报;2001年

3 ;VoIP服务不只是便宜的通话[N];网络世界;2002年

相关博士学位论文 前10条

1 高天;复杂环境下基于深度学习的语音信号预处理方法研究[D];中国科学技术大学;2018年

2 童仁杰;基于信号稀疏特性的语音增强算法研究[D];中国科学技术大学;2018年

3 王青;基于深层神经网络的多目标学习和融合的语音增强研究[D];中国科学技术大学;2018年

4 王冬霞;麦克风阵列语音增强的若干方法研究[D];大连理工大学;2007年

5 欧世峰;变换域语音增强算法的研究[D];吉林大学;2008年

6 孙琦;基于子空间的低计算复杂度语音增强算法研究[D];吉林大学;2017年

7 夏丙寅;面向移动通信的单通道语音增强方法研究[D];北京工业大学;2014年

8 姚峰英;语音增强系统的研究与实现[D];中国科学院上海冶金研究所;2001年

9 张龙;有监督学习条件下的单通道语音增强算法研究[D];中国科学技术大学;2017年

10 刘威;单通道语音水印与语音增强算法研究[D];东南大学;2017年

相关硕士学位论文 前10条

1 曲耀文;家庭环境中的语音增强系统设计[D];西南科技大学;2018年

2 吴佳雯;基于表示学习的语音增强算法研究[D];厦门大学;2017年

3 曾帆;远距离麦克风阵列语音增强及系统实现[D];厦门大学;2018年

4 许铭;车载环境下语音处理关键技术的研究[D];辽宁工业大学;2019年

5 贾翔宇;基于张量模型的语音增强算法研究[D];中国科学技术大学;2019年

6 吉慧芳;改进相位谱信息及相位重构的语音增强算法研究[D];太原理工大学;2019年

7 王雁;基于深度神经网络的语音增强算法[D];太原理工大学;2019年

8 武正平;基于稀疏编码的语音增强算法研究[D];太原理工大学;2019年

9 闫宁;基于多标准融合的快速盲声源分离算法研究[D];山东大学;2019年

10 白爽冉;基于深度神经网络的有监督语音增强研究[D];山东大学;2019年



本文编号:2738883

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2738883.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户df0e2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com