基于深度学习的真实场景下儿童语音提取研究

发布时间:2020-12-20 19:28
  语音是人类最常用的信息传递方式之一。近年来,以儿童语音为核心的数据吸引了大量的研究。这些儿童语音的数据多为婴儿和幼儿每天生活中四处走动时收集的录音。儿童语音的数据对于理论学科的发展,比如发展心理学和认知科学等,以及许多应用,比如潜在语言障碍的诊断和干预儿童效果的测量等,有着广泛的意义。然而在对儿童语音感兴趣的情况下,却很少有分析算法能够做到将儿童语音较好地提取出来,究其原因主要有以下几个难点:首先,记录的声音大部分属于婴儿或者是戴着录制设备的孩子,他们会发出非语言的声音,比如哭泣。此外,由于儿童这一群体的特殊性,在儿童语音录制的同时会有成人语音的出现,不同成人与录音设备位置的不同导致了远场声音和近场声音的交替混杂。最后,录音设备录入的可能是多个儿童以及多个成人的混合语音。如果想要利用儿童语音的数据做其他应用,我们需要将儿童的语音尽可能地分离出来,因此真实场景下的儿童语音提取任务在儿童语音的实际应用中具有重要意义。近些年来,随着深度学习方法在成人语音信号提取的任务中达到了较好的效果,这也为儿童语音的分离提取提供了一种可行的思路。然而,基于深度学习的成人语音分离算法往往是在仿真环境下进行的... 

【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校

【文章页数】:71 页

【学位级别】:硕士

【部分图文】:

基于深度学习的真实场景下儿童语音提取研究


图2.1基于深度神经网络的语音分离模型??2.2基于掩蔽的深度学习语音分离技术??在计算听觉场景分析中,理想二值掩蔽(Ideal?Binary?Mask,?IBM)是其主??要的计算目标[24,43]

示意图,单元,示意图,细胞


?第2章基于深度学习的语音分离技术??????.—V-???—?(x)?,(i^)??一?S?E?S?S?Kx)???—-^^^????v|?J?????图2.2?LSTM基础单元结构示意图??更为复杂的结构。图2.2是LSTM—个基础模块的结构图。在此结构图中,矩形??框代表神经网络层,圆圈和椭圆代表逐点的运算操作,每一条黑线代表传输一个??向量,合在一起的线表示向量的连接,分开的线表示内容的复制。cr表示sigmoid??函数,它输出0-1之间的数值,描述有多少量可以通过。/z,4和\分别表示卜1??时刻和?时刻的参数,c,_i和c,分别表示r?-?1时刻和f时刻的细胞(cell)状态,??x,表示当前/时刻的输入。LSTM最为关键的设计是细胞状态,它在水平线上方??贯穿运行,只有少量的线性操作会使其改变。LSTM引入了门结构并通过其来增??加或者减少信息到细胞状态的能力。门结构是一个sigmoid神经网络层和一个点??乘操作共同构成。LSTM单元结构共包括三个门,在图2.2中由左至右分别是遗??忘门、输入门和输出门。??LSTM的第一步是决定我们会从细胞状态中丢弃什么信息。这个决定通过遗??忘门完成。遗忘门会读取和x,,输出在0到1之间的数值给之前时刻细胞??状态中的每个值,1表示“全保留”,0表示“完全舍弃”,用来表示对于之??前的细胞状态保留多少。遗忘门的工作原理可以用公式2.9来表示:??ft?=?■?[h,-i,xt]?+?bf)?(2.9)??LSTM的第二步是决定被存放在细胞状态中的新信息量,这个决定通过输??入门完成。这个部分包括两步,一是sigmoid层来决定哪些

框架图,语音,框架


运行sigmoid层来决定细胞状态的哪些部分被输出,如公式2.13所??示,并利用之前得到的新细胞状态,通过tanh层进行处理,最后将tanh处理后??的结果与sigmoid处理后的系数相乘得到最终的输出,如公式2.14所示。??LSTM网络通过遗忘门、输入门和输出门的设计来实现了对于长期信息的记??忆,在语音以及图像各个任务上表现出色,因此本文中使用的神经网络模型均以??LSTM层作为隐层,以求达到最优性能。??2.3.2基于LSTM的语音分离??基于LSTM的语音分离处理流程如图2.3所示:基于LSTM的语音分离技??Model?Training?Stage??’?Child/Mixed?f\?Separation???-V-\?????1—A???m??????Training????^????Model??\?Samples?\)?\?ExtraCtl〇n?[?Training??Decoding?Stage??^?Noisy?Mixed?LPS?Feature???Speech???Waveform??Utterance?Extraction?Separation?Reconstruction??V?W?I?:?I?I?I??Phase??图2.3基于LSTM的语音分离基本框架??术的基本框架主要分为两个阶段,分别是LSTM模型的训练阶段以及对测试数??据进行分离的阶段。模型的训练阶段主要目的是用混合语音和与之对应的儿童??语音的数据对来对模型的参数进行训练,得到可以用于语音分离的LSTM模型,??模型训练部分主要包含数据生成、特征提取以及神经网络训练三个部分。在分离??

【参考文献】:
博士论文
[1]复杂环境下基于深度学习的语音信号预处理方法研究[D]. 高天.中国科学技术大学 2018
[2]基于深度学习的说话人无关单通道语音分离[D]. 王燕南.中国科学技术大学 2017
[3]基于深层神经网络的语音增强方法研究[D]. 徐勇.中国科学技术大学 2015

硕士论文
[1]基于听觉计算模型和深度神经网络的双耳语音分离[D]. 范娜娜.中国科学技术大学 2017



本文编号:2928422

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2928422.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3cd4a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com