基于深度学习的真实场景下儿童语音提取研究

发布时间：2020-12-20 19:28

　　语音是人类最常用的信息传递方式之一。近年来,以儿童语音为核心的数据吸引了大量的研究。这些儿童语音的数据多为婴儿和幼儿每天生活中四处走动时收集的录音。儿童语音的数据对于理论学科的发展,比如发展心理学和认知科学等,以及许多应用,比如潜在语言障碍的诊断和干预儿童效果的测量等,有着广泛的意义。然而在对儿童语音感兴趣的情况下,却很少有分析算法能够做到将儿童语音较好地提取出来,究其原因主要有以下几个难点:首先,记录的声音大部分属于婴儿或者是戴着录制设备的孩子,他们会发出非语言的声音,比如哭泣。此外,由于儿童这一群体的特殊性,在儿童语音录制的同时会有成人语音的出现,不同成人与录音设备位置的不同导致了远场声音和近场声音的交替混杂。最后,录音设备录入的可能是多个儿童以及多个成人的混合语音。如果想要利用儿童语音的数据做其他应用,我们需要将儿童的语音尽可能地分离出来,因此真实场景下的儿童语音提取任务在儿童语音的实际应用中具有重要意义。近些年来,随着深度学习方法在成人语音信号提取的任务中达到了较好的效果,这也为儿童语音的分离提取提供了一种可行的思路。然而,基于深度学习的成人语音分离算法往往是在仿真环境下进行的...

【文章来源】：中国科学技术大学安徽省 211工程院校 985工程院校

【文章页数】：71 页

【学位级别】：硕士

【部分图文】：

图２．１基于深度神经网络的语音分离模型??２．２基于掩蔽的深度学习语音分离技术??在计算听觉场景分析中，理想二值掩蔽（Ｉｄｅａｌ?Ｂｉｎａｒｙ?Ｍａｓｋ，?ＩＢＭ）是其主??要的计算目标［２４，４３］

示意图,单元,示意图,细胞

?第２章基于深度学习的语音分离技术????？?．—Ｖ－？??—？（ｘ）?，（ｉ＾）??一?Ｓ?Ｅ?Ｓ?Ｓ?Ｋｘ）??？—－＾＾＾?？??ｖ｜?Ｊ??？??图２．２?ＬＳＴＭ基础单元结构示意图??更为复杂的结构。图２．２是ＬＳＴＭ—个基础模块的结构图。在此结构图中，矩形??框代表神经网络层，圆圈和椭圆代表逐点的运算操作，每一条黑线代表传输一个??向量，合在一起的线表示向量的连接，分开的线表示内容的复制。ｃｒ表示ｓｉｇｍｏｉｄ??函数，它输出０－１之间的数值，描述有多少量可以通过。／ｚ，４和＼分别表示卜１??时刻和？时刻的参数，ｃ，＿ｉ和ｃ，分别表示ｒ?－?１时刻和ｆ时刻的细胞（ｃｅｌｌ）状态，??ｘ，表示当前／时刻的输入。ＬＳＴＭ最为关键的设计是细胞状态，它在水平线上方??贯穿运行，只有少量的线性操作会使其改变。ＬＳＴＭ引入了门结构并通过其来增??加或者减少信息到细胞状态的能力。门结构是一个ｓｉｇｍｏｉｄ神经网络层和一个点??乘操作共同构成。ＬＳＴＭ单元结构共包括三个门，在图２．２中由左至右分别是遗??忘门、输入门和输出门。??ＬＳＴＭ的第一步是决定我们会从细胞状态中丢弃什么信息。这个决定通过遗??忘门完成。遗忘门会读取和ｘ，，输出在０到１之间的数值给之前时刻细胞??状态中的每个值，１表示“全保留”，０表示“完全舍弃”，用来表示对于之??前的细胞状态保留多少。遗忘门的工作原理可以用公式２．９来表示：??ｆｔ?＝?■?［ｈ，－ｉ，ｘｔ］?＋?ｂｆ）?（２．９）??ＬＳＴＭ的第二步是决定被存放在细胞状态中的新信息量，这个决定通过输??入门完成。这个部分包括两步，一是ｓｉｇｍｏｉｄ层来决定哪些

框架图,语音,框架

运行ｓｉｇｍｏｉｄ层来决定细胞状态的哪些部分被输出，如公式２．１３所??示，并利用之前得到的新细胞状态，通过ｔａｎｈ层进行处理，最后将ｔａｎｈ处理后??的结果与ｓｉｇｍｏｉｄ处理后的系数相乘得到最终的输出，如公式２．１４所示。??ＬＳＴＭ网络通过遗忘门、输入门和输出门的设计来实现了对于长期信息的记??忆，在语音以及图像各个任务上表现出色，因此本文中使用的神经网络模型均以??ＬＳＴＭ层作为隐层，以求达到最优性能。??２．３．２基于ＬＳＴＭ的语音分离??基于ＬＳＴＭ的语音分离处理流程如图２．３所示：基于ＬＳＴＭ的语音分离技??Ｍｏｄｅｌ?Ｔｒａｉｎｉｎｇ?Ｓｔａｇｅ??’?Ｃｈｉｌｄ／Ｍｉｘｅｄ?ｆ＼?Ｓｅｐａｒａｔｉｏｎ??？－Ｖ－＼?？?？?１—Ａ?？?ｍ?？?？??Ｔｒａｉｎｉｎｇ??？?＾??？?Ｍｏｄｅｌ??＼?Ｓａｍｐｌｅｓ?＼）?＼?ＥｘｔｒａＣｔｌ〇ｎ?［?Ｔｒａｉｎｉｎｇ??Ｄｅｃｏｄｉｎｇ?Ｓｔａｇｅ??＾?Ｎｏｉｓｙ?Ｍｉｘｅｄ?ＬＰＳ?Ｆｅａｔｕｒｅ???Ｓｐｅｅｃｈ???Ｗａｖｅｆｏｒｍ??Ｕｔｔｅｒａｎｃｅ?Ｅｘｔｒａｃｔｉｏｎ?Ｓｅｐａｒａｔｉｏｎ?Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ??Ｖ?Ｗ?Ｉ?：?Ｉ?Ｉ?Ｉ??Ｐｈａｓｅ??图２．３基于ＬＳＴＭ的语音分离基本框架??术的基本框架主要分为两个阶段，分别是ＬＳＴＭ模型的训练阶段以及对测试数??据进行分离的阶段。模型的训练阶段主要目的是用混合语音和与之对应的儿童??语音的数据对来对模型的参数进行训练，得到可以用于语音分离的ＬＳＴＭ模型，??模型训练部分主要包含数据生成、特征提取以及神经网络训练三个部分。在分离??

【参考文献】：
博士论文
[1]复杂环境下基于深度学习的语音信号预处理方法研究[D]. 高天.中国科学技术大学 2018
[2]基于深度学习的说话人无关单通道语音分离[D]. 王燕南.中国科学技术大学 2017
[3]基于深层神经网络的语音增强方法研究[D]. 徐勇.中国科学技术大学 2015

硕士论文
[1]基于听觉计算模型和深度神经网络的双耳语音分离[D]. 范娜娜.中国科学技术大学 2017

本文编号：2928422

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/xixikjs/2928422.html

上一篇：中美贸易摩擦背景下“中国制造2025”的报道研究 ——以美国三家主流媒体为例
下一篇：基于变异错误定位的变异体约减策略研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|