驾驶环境下低信噪比语音增强算法研究
发布时间:2019-08-26 12:54
【摘要】:随着人工智能技术的发展,智能驾驶逐渐成为人们关注的焦点,便携式导航仪、智能后视镜等智能车载电子产品也逐渐走入日常生活。为了减少意外事故的发生,解放驾驶员的双手,大部分车载电子产品需要通过语音命令来控制。然而,驾驶环境是充斥着多种噪声的复杂声学环境,现有的语音识别技术在该环境下难以满足人们的要求。因此,驾驶环境下语音增强技术的研究对于未来车载电子产品的设计与发展有着重要意义。本文研究了驾驶环境下低信噪比语音增强算法,并重点介绍了基于神经网络的语音增强算法。论文给出了语音增强算法的基本原理、实现方法及测试结果,主要工作如下:1.本文针对汽车噪声与驾驶员语音的特点,结合受限玻尔兹曼机理论,提出了一种深层神经网络训练算法的优化方案,即将原有的无监督的初始化训练方案改为以较高信噪比平行语料作为目标函数的有监督训练方案。与原有训练算法相比,该方案既可以缓解训练集数据较少时过拟合的问题,又可以简化网络模型的结构,缩短运算时间。2.本文结合反向传播神经网络与径向基神经网络的特点,给出一种将两种网络相结合的训练算法,通过两种网络相结合,既可以弥补反向传播网络非线性映射能力较弱的不足,又可以尽量减少径向基网络隐层神经元的数量。3.针对本文所提算法在去噪能力与鲁棒性上存在的不足,本文还给出了两方面的优化方案。为了提高增强模型的性能,本文对训练集数据依据信噪比不同进行分类训练。在增强时,为了准确而快速地判别带噪信号信噪比的强弱,本文采用基于能量统计复杂度的端点检测算法来检测语音起点,然后对语音起点之前的纯噪声片段进行分析,以确定带噪语音所属类别。为了提高算法的鲁棒性,在增强时,本文对与训练集全局均值相差过大的输入数据进行均值移位,以便更好地适应增强模型。在语音重构过程中,为了减少均值移位产生的音乐噪声,本文还采用最小值控制递归平均噪声估计算法来估计语音存在概率,然后依据语音存在概率进行加权相加。实验结果表明,本文算法能够适用于驾驶环境下的语音增强,与现有算法相比,在分段信噪比与语音质量方面均有较大提高。
【图文】:
图2-3高斯混合模型训练图逡逑Fig.邋2-3邋Trai打ing邋Stage邋of邋GMM邋enhancement邋sys巧m逡逑GMM模型的训练过程如图2-3所示,首先从纯净与带噪信号中提取梅尔频率逡逑倒谱系数,然后采用最大期望算法(Expectation邋Maximization,邋EM)分别对其训练。逡逑语音信号特征序列混合高斯模型的定义如式(2-30)所示:逡逑fCC邋I/0邋=邋!>,邋A(C)逦(2-30)逡逑其中M是指高斯概率函数的个数,,C表示语音信号的特征序列,^邋=逡逑表示高斯混合模型的参数,即每个高斯概率函数的权重、均值与协方差。A(。)是逡逑指语音信号特征在第/个高斯分布下的概率,其计算公式如式口-31)所示:逡逑13逡逑
语音增强算法概述逡逑之一。该测度是上世纪90年代提出的,并取代原来的基于语音感知质量的测量被逡逑评选为ITU-P.862建议。PESQ的计算流程如图2-4所示,首先要对检测语音信号逡逑和参考信号进行预处理和时间对齐。预处理的主要作用是使纯净语音信号与增强逡逑后信号增益均衡,时间对齐部分主要是为感知模型提供时间延迟,主要包括粗延逡逑迟估计和短句分割与对齐两部分。然后通过听觉变换将语音信号映射为感知响度,逡逑最后通过扰动计算及时域和频域的平均等处理求出感知语音质量评估巧esq)挪J逡逑度。PESQ的评分范围与MOS评分类似,一般是在-0.5到4.5之间。逡逑参考信号邋逦邋,逦,逦逦逡逑叫壚S邋 ̄?逦I邋>听觉变换逡逑*逦I邋P口Q逡逑〔被测系统]逦巴置逦扰动处理逦?时间平均逦?逡逑^逦/逦对齐逡逑t邋n逡逑扮测信Jh预处理H逦A听觉变换L.逦逡逑—^—逦识别坏的逡逑尅间间隔逡逑图2-4感知语音质量评估测度流程图逡逑Kg.邋2-4邋The邋flow邋chart邋of邋PESQ逡逑2.2.2主观评价指标逡逑一个较好的语音增强算法,处理后的语音不仅要有较高的语音可懂度,而且逡逑还要保持较高的语音质量,因为有的增强算法可能存在语音可懂度较高而音质较逡逑差的情况。此外
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.35
本文编号:2529313
【图文】:
图2-3高斯混合模型训练图逡逑Fig.邋2-3邋Trai打ing邋Stage邋of邋GMM邋enhancement邋sys巧m逡逑GMM模型的训练过程如图2-3所示,首先从纯净与带噪信号中提取梅尔频率逡逑倒谱系数,然后采用最大期望算法(Expectation邋Maximization,邋EM)分别对其训练。逡逑语音信号特征序列混合高斯模型的定义如式(2-30)所示:逡逑fCC邋I/0邋=邋!>,邋A(C)逦(2-30)逡逑其中M是指高斯概率函数的个数,,C表示语音信号的特征序列,^邋=逡逑表示高斯混合模型的参数,即每个高斯概率函数的权重、均值与协方差。A(。)是逡逑指语音信号特征在第/个高斯分布下的概率,其计算公式如式口-31)所示:逡逑13逡逑
语音增强算法概述逡逑之一。该测度是上世纪90年代提出的,并取代原来的基于语音感知质量的测量被逡逑评选为ITU-P.862建议。PESQ的计算流程如图2-4所示,首先要对检测语音信号逡逑和参考信号进行预处理和时间对齐。预处理的主要作用是使纯净语音信号与增强逡逑后信号增益均衡,时间对齐部分主要是为感知模型提供时间延迟,主要包括粗延逡逑迟估计和短句分割与对齐两部分。然后通过听觉变换将语音信号映射为感知响度,逡逑最后通过扰动计算及时域和频域的平均等处理求出感知语音质量评估巧esq)挪J逡逑度。PESQ的评分范围与MOS评分类似,一般是在-0.5到4.5之间。逡逑参考信号邋逦邋,逦,逦逦逡逑叫壚S邋 ̄?逦I邋>听觉变换逡逑*逦I邋P口Q逡逑〔被测系统]逦巴置逦扰动处理逦?时间平均逦?逡逑^逦/逦对齐逡逑t邋n逡逑扮测信Jh预处理H逦A听觉变换L.逦逡逑—^—逦识别坏的逡逑尅间间隔逡逑图2-4感知语音质量评估测度流程图逡逑Kg.邋2-4邋The邋flow邋chart邋of邋PESQ逡逑2.2.2主观评价指标逡逑一个较好的语音增强算法,处理后的语音不仅要有较高的语音可懂度,而且逡逑还要保持较高的语音质量,因为有的增强算法可能存在语音可懂度较高而音质较逡逑差的情况。此外
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.35
【参考文献】
相关期刊论文 前4条
1 陈强;张军峰;王菲;郑志祥;;基于OLS-RBF神经网络的进场飞行时间预测[J];航空计算技术;2015年04期
2 刘峰涛;贺国光;;基于近似熵和统计复杂度的交通流复杂性测度[J];中国公路学报;2007年04期
3 李洪亮;丁渭平;王务林;;汽车噪声控制技术的最新进展与发展趋势[J];汽车技术;2007年04期
4 曹明纯;;增强噪声背景中语言的数字处理方法[J];电声技术;1984年05期
相关博士学位论文 前1条
1 徐勇;基于深层神经网络的语音增强方法研究[D];中国科学技术大学;2015年
相关硕士学位论文 前4条
1 毛潇宇;高速驾驶环境中汽车噪声的语音增强算法[D];北京交通大学;2015年
2 苏大壮;面向数字资源聚合平台的光学字符识别技术的研究[D];电子科技大学;2015年
3 王纲金;低信噪比环境下语音端点检测方法研究[D];湖南大学;2011年
4 冯炎;基于噪声估计和先验信噪比估计的语音增强算法研究[D];西南交通大学;2010年
本文编号:2529313
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2529313.html