复杂场景下基于深度学习的鲁棒性语音识别的研究
发布时间:2020-12-02 12:52
从古至今,语音一直是人类最常使用的交流方式,人们可以通过语音高效而且便捷地表达内心的情感。因此,人类社会的进步离不开语音的推动。而语音识别就是让机器能够“听懂”人们在说什么,将语音信号转化为文本信息,从而让机器能够根据人的语音指令做出相应的反馈。语音识别是实现人机交互的窗口,对机器的智能化起到至关重要的作用。在当今社会,随着人工智能技术的快速发展,人们的生活和工作方式也发生了巨大的改变。人们越来越不满足于依靠键盘和鼠标的文本和指令的人机交互模式,更加倾向于语音折中方便快捷的方式。但是语音信号的产生,传播和收集是一个十分复杂的过程。语音是由人类的不同发音器官协同作用下产生的,由于不同的人发音器官存在差异性,因此同一文本内容,不同人之间的语音频谱特性也存在很大差异性。在日常生活中,一般使用麦克风阵列对语音信号进行采集。由于语音信号、各种的环境噪声和干扰人声都是以声波的形式借助空气等相同的媒介传播,从而会对我们所需要的语音信号产生影响,造成语音信号的破坏。在更加复杂的噪声环境中,还会把目标语音完全掩盖。这就对我们的语音识别系统在真实场景中的应用提出了巨大的挑战。根据麦克风的数量可分为多通道语...
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:111 页
【学位级别】:博士
【部分图文】:
图1.2神经网络结构图??
第2章鲁棒性语音识别??2.1?前言??根据第一章的介绍,如今的语音识别系统通过强大的声学模型、语言模型和??大量训练数据在非复杂场景下己经实用化甚至商用化。但是当识别系统处在复??杂的场景下,语音信号便会被背景噪声和干扰人声覆盖,这将直接导致训练声学??模型的数据和真实复杂场景下测试数据差异性变大,从而降低识别系统的识别??准确率。鲁棒性语音识别要解决的就是语音识别系统在复杂场景下噪声鲁棒性??问题。本文将从语音识别前端系统(即信号域语音增强)和后端系统(基于深度学??习的声学模型优化)优化角度,探宄如何在真实复杂场景下解决语音识别鲁棒性??问题。??2.2鲁棒性语音识别方法??
传统的声学场景分析方法是基于时频掩蔽信号得到目标语音,其中时频蔽用来表示在每个时频点上语音存在概率,取值范围0到1之间。汪德亮团队次使用深度神经网络学习带噪信号特征和时频掩蔽之间的映射关系,从而实语音增强。可以发现基于时频掩蔽和特征映射的方法唯一区别是学习目标的同。最早被利用的掩蔽信号为理想二值掩蔽(Ideal?Ratio?Mask,?IBM),其定义下:??USNR(kJ)>?LC??IBM{k,l)?=?\?(2.37)0;else??其中LC是预设门限值。首先通过每个频点的噪声功率和其对应的干净语的功率计算出SNRJiV/iOt,/)。其次,通过比较每个时频点iWitOt,/)和LC值如果/)的值大于LC,表示带噪语音在该时频点上语音占主导,/)值设为1;如果SA^ROt,/)的值小于LC,表示带噪语音在该时频点上噪声占导,值设为。由此IBM可以看成在每个时频点上的而分类问题。虽
【参考文献】:
博士论文
[1]复杂环境下基于深度学习的语音信号预处理方法研究[D]. 高天.中国科学技术大学 2018
本文编号:2895341
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:111 页
【学位级别】:博士
【部分图文】:
图1.2神经网络结构图??
第2章鲁棒性语音识别??2.1?前言??根据第一章的介绍,如今的语音识别系统通过强大的声学模型、语言模型和??大量训练数据在非复杂场景下己经实用化甚至商用化。但是当识别系统处在复??杂的场景下,语音信号便会被背景噪声和干扰人声覆盖,这将直接导致训练声学??模型的数据和真实复杂场景下测试数据差异性变大,从而降低识别系统的识别??准确率。鲁棒性语音识别要解决的就是语音识别系统在复杂场景下噪声鲁棒性??问题。本文将从语音识别前端系统(即信号域语音增强)和后端系统(基于深度学??习的声学模型优化)优化角度,探宄如何在真实复杂场景下解决语音识别鲁棒性??问题。??2.2鲁棒性语音识别方法??
传统的声学场景分析方法是基于时频掩蔽信号得到目标语音,其中时频蔽用来表示在每个时频点上语音存在概率,取值范围0到1之间。汪德亮团队次使用深度神经网络学习带噪信号特征和时频掩蔽之间的映射关系,从而实语音增强。可以发现基于时频掩蔽和特征映射的方法唯一区别是学习目标的同。最早被利用的掩蔽信号为理想二值掩蔽(Ideal?Ratio?Mask,?IBM),其定义下:??USNR(kJ)>?LC??IBM{k,l)?=?\?(2.37)0;else??其中LC是预设门限值。首先通过每个频点的噪声功率和其对应的干净语的功率计算出SNRJiV/iOt,/)。其次,通过比较每个时频点iWitOt,/)和LC值如果/)的值大于LC,表示带噪语音在该时频点上语音占主导,/)值设为1;如果SA^ROt,/)的值小于LC,表示带噪语音在该时频点上噪声占导,值设为。由此IBM可以看成在每个时频点上的而分类问题。虽
【参考文献】:
博士论文
[1]复杂环境下基于深度学习的语音信号预处理方法研究[D]. 高天.中国科学技术大学 2018
本文编号:2895341
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2895341.html