复杂声学场景下多人对话语音识别的预处理方法研究

发布时间：2021-03-13 12:39

　　现如今,人工智能产业正处于快速发展的阶段,各种智能算法、智能硬件等层出不穷,它们将在不远的将来深刻改变人们的生活。为了方便人与智能设备之间自然无障碍的交流,首要任务就是推进针对语音识别的研究,即让机器明白人类的语言,并将其转换为精准的文本信息。可以想象,通过语音识别可以方便的将人类各种指令、需求发送给机器,机器能够做出相对反应并能够反过来与人进行交互,这就是人们心中所畅想的“智能机器人”所能达到的水平。在一代又一代研究人员的努力推动下,语音技术的发展已经取得了不小的成就。目前最先进的语音识别系统,在相对安静无干扰的场景下,能够达到相当高的识别性能。在某些特定场景下,更是有研究宣称超过了人类速记员的水平。然而,在智能语音识别技术真正落地的时候,由于真实场景的复杂度极大,理想的语音识别水平并不那么容易达到。一方面,语音信号以声波的形式在空气等媒介中从发声源传播至接收端。在这个传播的过程中会遇到各种各样的干扰因素,如环境背景噪声、混响等,会大大降低语音质量和可懂度。所以,让机器准确地识别如此多复杂因素干扰后的信号也是巨大的挑战。另一方面,目前绝大部分研究围绕着对单个目标语音的识别问题,即在当...

【文章来源】：中国科学技术大学安徽省 211工程院校 985工程院校

【文章页数】：123 页

【学位级别】：博士

【部分图文】：

图１．１基本的语音识别系统架构图??

复杂声学场景下多人对话语音识别的预处理方法研究

图１．２神经网络结构示意图??最大所对应命

复杂声学场景下多人对话语音识别的预处理方法研究

图１．３?ＣＨｉＭＥ－５多人对话场景示意图

【参考文献】：
博士论文
[1]基于自回归深度神经网络的单通道语音分离方法研究[D]. 李曾玺.中国科学技术大学 2019
[2]基于深层神经网络的多目标学习和融合的语音增强研究[D]. 王青.中国科学技术大学 2018
[3]基于深度学习的说话人无关单通道语音分离[D]. 王燕南.中国科学技术大学 2017
[4]基于深层神经网络的语音增强方法研究[D]. 徐勇.中国科学技术大学 2015

本文编号：3080233

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/xxkjbs/3080233.html

上一篇：基于机器视觉的铁路钢轨扣件定位与识别方法研究
下一篇：面向实时视频压缩的HEVC编码算法研究及系统实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|