复杂声学场景下多人对话语音识别的预处理方法研究
发布时间:2021-03-13 12:39
现如今,人工智能产业正处于快速发展的阶段,各种智能算法、智能硬件等层出不穷,它们将在不远的将来深刻改变人们的生活。为了方便人与智能设备之间自然无障碍的交流,首要任务就是推进针对语音识别的研究,即让机器明白人类的语言,并将其转换为精准的文本信息。可以想象,通过语音识别可以方便的将人类各种指令、需求发送给机器,机器能够做出相对反应并能够反过来与人进行交互,这就是人们心中所畅想的“智能机器人”所能达到的水平。在一代又一代研究人员的努力推动下,语音技术的发展已经取得了不小的成就。目前最先进的语音识别系统,在相对安静无干扰的场景下,能够达到相当高的识别性能。在某些特定场景下,更是有研究宣称超过了人类速记员的水平。然而,在智能语音识别技术真正落地的时候,由于真实场景的复杂度极大,理想的语音识别水平并不那么容易达到。一方面,语音信号以声波的形式在空气等媒介中从发声源传播至接收端。在这个传播的过程中会遇到各种各样的干扰因素,如环境背景噪声、混响等,会大大降低语音质量和可懂度。所以,让机器准确地识别如此多复杂因素干扰后的信号也是巨大的挑战。另一方面,目前绝大部分研究围绕着对单个目标语音的识别问题,即在当...
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:123 页
【学位级别】:博士
【部分图文】:
图1.1基本的语音识别系统架构图??
图1.2神经网络结构示意图??最大所对应命
图1.3?CHiME-5多人对话场景示意图
【参考文献】:
博士论文
[1]基于自回归深度神经网络的单通道语音分离方法研究[D]. 李曾玺.中国科学技术大学 2019
[2]基于深层神经网络的多目标学习和融合的语音增强研究[D]. 王青.中国科学技术大学 2018
[3]基于深度学习的说话人无关单通道语音分离[D]. 王燕南.中国科学技术大学 2017
[4]基于深层神经网络的语音增强方法研究[D]. 徐勇.中国科学技术大学 2015
本文编号:3080233
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:123 页
【学位级别】:博士
【部分图文】:
图1.1基本的语音识别系统架构图??
图1.2神经网络结构示意图??最大所对应命
图1.3?CHiME-5多人对话场景示意图
【参考文献】:
博士论文
[1]基于自回归深度神经网络的单通道语音分离方法研究[D]. 李曾玺.中国科学技术大学 2019
[2]基于深层神经网络的多目标学习和融合的语音增强研究[D]. 王青.中国科学技术大学 2018
[3]基于深度学习的说话人无关单通道语音分离[D]. 王燕南.中国科学技术大学 2017
[4]基于深层神经网络的语音增强方法研究[D]. 徐勇.中国科学技术大学 2015
本文编号:3080233
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3080233.html