复杂声学场景下鲁棒性语音识别研究

发布时间：2021-08-12 08:16

　　自古以来,语音作为人类生活中最常用的沟通方式,大家通过各自独特的语言直抒胸臆,表达诉求,传承文明。因此,语音对人类文明的发展与社会进步有着至关重要的作用。在人工智能技术中,语音识别技术就是将人类的语言信息转变为机器能够理解的文本信息,最终实现人类与机器的交互,使机器做出正确的反馈。语音识别技术是自然人机交互的重要桥梁,能够大力地促进人工智能的发展。但是,现实生活中,不管是机器还是人类接受到的语音信号都是通过空气等媒介才能间接地传递过来,因此,这些声波信号极易受到各种噪声干扰以及不同环境存在的回声、混响等影响导致失真,甚在在更复杂的声学场景下,还会把目标语音完全掩盖,这就对我们的语音识别系统在真实场景中的应用提出了巨大的挑战。本文首先将语音识别的前端与后端相结合,通过语音分离和降噪等增强算法对其展开研究。除此之外,语音识别在现实复杂场景下的鲁棒性问题,还需要考虑说话人本身的多变性因素,比如语速的快慢等。因此我们还开始了针对语速变化场景的鲁棒性研究。论文的主要工作如下:（1）语音识别基线系统搭建。针对复杂声学场景的语音识别鲁棒性问题,本文在国际鲁棒性语音识别评测任务CHi ME-5上进行算...

【文章来源】：上海师范大学上海市

【文章页数】：59 页

【学位级别】：硕士

【部分图文】：

复杂声学场景下鲁棒性语音识别研究

语音识别系统结构框图

结构框图,结构框图,回声,冲激响应

第2章语音识别系统概述上海师范大学硕士学位论文10其中10()()()Qqynhnxnq，Q是滤波器的长度。图2-2声学回声消除结构框图回声消除算法的主要作用是当环境发生改变时，要求所描述的传输路径能够准确及时地反映这种变化，从而保证能够对麦克风中采集的回声信号具有良好的消除效果。通常可以使用不同的回声消除算法来解决不同的应用场景需求。1）固定参数回声消除图2-3声学回声生成模型如上图2-3所示，假设能够提前准确地获得系统的冲激响应，且该冲激响应具有稳定性。此时可以将参考信号x(n)与该预知的冲激响应进行卷积，来估计麦克风中采集到的回声信号，进而实现回声消除处理。公式如下：()=()()()（2-2）

结构框图,生成模型,回声,冲激响应

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3337956.html

上一篇：基于循环累积量和神经网络的调制识别算法
下一篇：空地融合携能通信网的传输策略设计与研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|