当前位置:主页 > 科技论文 > 自动化论文 >

基于结构化深度学习的语音识别自适应技术研究

发布时间:2020-05-25 15:14
【摘要】:深度神经网络-隐马尔可夫模型的提出令语音识别在干净环境中的应用取得了巨大进展。然而,因为训练数据与测试数据之间的声学环境失配,语音识别的准确率在噪声环境下相比在干净环境下依然存在巨大的性能下降。因此,基于深度神经网络的说话人自适应技术成为当前语音识别领域的一个研究热点和难点。之前的相关工作因为缺乏对深度神经网络结构的先验设计,在自适应时需要估计大量的自适应参数,不能最有效的使用有限的自适应数据。本论文首先提出了基于结构化深度学习的自适应来更有效的进行基于深度神经网络的自适应和自适应训练,主要包括两个部分:基于结构化深度学习的特征自适应和基于模型结构化的深度学习自适应。随后,本论文提出了自适应的超深卷积残差网络并获得了抗噪语音识别中的最佳性能。基于结构化深度学习的特征自适应主要围绕基于说话人感知训练的自适应框架展开,提出了基于环境感知训练的循环神经网络自适应以及基于深度神经网络的在线自适应这两大方法。首先,提出了基于说话人感知训练的循环神经网络声学模型自适应,这是第一个将说话人感知训练运用在循环神经网络上的工作。在最基础的拼接结构上,本论文探索了两种新的结构来避免潜在的信息爆炸。此外,本论文提出了基于深度神经网络的说话人表示提取,并进一步设计了基于多任务训练和音素感知的结构来提取同时包含多种环境因素(比如说话人和单音素)的环境表示。该特征和传统i-vector一起用于基于说话人感知训练的循环神经网络自适应中,在会议语音识别任务AMI中取得了相对6.5%的性能提升。最后,我们将环境的概念扩展到了语言模型中,初步探索了两种基于题材感知训练的循环神经网络语言模型的自适应方法,在多题材广播节目的字幕生成任务中相比无自适应的语言模型取得了显著的性能提升。随后,本论文进一步探索了基于深度神经网络的在线自适应方法,提出了基于深度神经网络的多因子感知联合训练的创新框架。该框架提出了结构化的模型,将多个拥有不同功能的模块集成在一个深度计算型网络中。该方法使用深度神经网络在线地提取基于说话人、音素和噪声环境的表示,并将这些表示集成进主语音识别网络中用于提高网络的语音分类性能。它使用了多任务训练的框架来同时优化主语音识别网络和环境特征提取网络的参数,不需要显式的特征提取和自适应阶段,拥有和基线网络一样的解码实时率。我们在远场和抗噪语音识别任务AMI和Aurora4上验证了所提出的新框架,取得了比无自适应的基线系统相对10%到18%的性能提升。基于模型结构化的深度学习自适应的研究围绕基类自适应训练展开,本论文将其扩展到深度神经网络中:对于神经网络的一层,使用一组权重矩阵作为权重矩阵基;为每一种声学环境估计一个插值向量用于将权重矩阵基组合成一个环境独有的权重矩阵。由于在自适应时只需要估计这一维度很低的插值向量,因而该方法可以更有效的利用有限的自适应数据。同时,本论文证明了基于环境感知训练的自适应框架等价于使用了一组偏置基,因此可以作为基类自适应训练框架中的一个特例。该方法在电话语音识别任务Switchboard中取得了相对7.6%到10.6%的性能提升。自适应的超深卷积残差网络的研究针对目前抗噪语音识别中最有效的超深卷积残差网络展开,将本论文提出的两个自适应方法扩展到超深卷积残差网络中。本论文解决了二维输入无法和向量进行拼接的问题;探索了两种不同的网络参数作为基的方法;针对多种环境因子,提出了基于多因子的参数基结构。这一系列方法的共同应用在抗噪语音识别任务Aurora4上取得了单系统5.92%词错误率,这是目前业界最好的性能。最后,本论文综合了所提出的两类结构化深度学习方法,提出了多轮次解码的语音识别系统架构,在抗噪语音识别任务Aurora4、Chime4、AMI上进行了验证。其中在Aurora4上的性能已经接近于人类,在带真实环境噪声的Chime4和AMI上也取得了相对10%到39%的性能提升。总而言之,本论文成功地将结构化深度学习运用在了语音识别的特征自适应和模型自适应中,在电话语音识别任务以及抗噪语音识别任务上均取得了显著的性能提升,特别在Aurora4上取得了全业界最好的性能。
【图文】:

变迁图,语音识别,错误率,词序


图 1 1 语音识别词错误率变迁图 (截止 2009 年)Fig 1 1 History of WER on several tasks (until 2009)音识别架构今为止最为成功的基于统计的语音识别的框架中,语音识别过程可以公式:w argmaxww O 所有可能的候选假设 中寻找拥有最大后验概率 w O 的词序列n是词序列,O o1oT是特征向量序列。w argmaxww OargmaxwO w wO

框架图,语音识别,框架,声学模型


图 1 2 语音识别框架Fig 1 2 Framework of an automatic speech recognition system图 1 2是对当前流行的语音识别系统的框架的描述,它主要由四个部分组成,包括前端信号处理、声学模型、语言模型和解码器。前端信号处理:原始模拟信号首先经录入器件转化为数字信号。前端信号处理部分负责从数字化后的语音中提取鲁棒的声学特征信息,主要包括多麦克风阵列降噪和提取符合人耳听觉感知的声学特征等。详细内容将在章节 2.1.1中介绍。声学模型(AcousticModel,AM):声学模型是语音识别系统中最核心的模型之一。声学模型的好坏直接决定了语音识别系统的性能,也是本论文的研究重点之一。声学模型建模的是给定的词序列生成出所观测到的特征向量序列的条件概率 O w目前主流的语音识别系统通常使用隐马尔可夫模型(Hidden Markov Model, HMM来做为声学模型。在 HMM 中,存在一个概率分布被称为状态输出概率,这个概率可以通过使用混合高斯模型来建模,也可以通过深度神经网络来建模。使用前
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TN912.34;TP18

【相似文献】

相关期刊论文 前10条

1 张晗;;浅谈语音识别[J];内蒙古科技与经济;2019年18期

2 周弘烨;;语音识别大揭秘:计算机如何处理声音?[J];中国新通信;2019年04期

3 程建军;胡立志;;关于深度学习的语音识别应用研究[J];科技经济导刊;2019年12期

4 桑亚超;李龙杰;袁传青;霍庆磊;张乐;;关于语音识别在空调上的应用与改善[J];日用电器;2019年07期

5 牛洪波;王婉君;刘华楠;;语音识别专利技术综述[J];河南科技;2019年24期

6 向晖;;数字语音识别与合成[J];电子世界;2019年15期

7 姜姝姝;;语音识别64年大突破[J];机器人产业;2016年06期

8 吴俊宇;;语音识别为何“叫好不叫座”?[J];通信世界;2016年16期

9 徐鑫;;语音识别的未来之路[J];通信世界;2016年16期

10 张连仲;;带着使命感出发[J];英语学习;2017年01期

相关会议论文 前10条

1 张冰;龙长才;罗海风;;熟悉掩蔽音背景下的目标语音识别[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年

2 于东;贾磊;徐波;;面向语音识别错误恢复的澄清式疑问句生成[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 邢安昊;黎塔;颜永红;;利用二重打分方法的激活词语音识别[A];中国声学学会第十届青年学术会议论文集[C];2013年

4 文成义;何海燕;张玉扶;;基于新型神经网络的不定人语音识别[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年

5 杜笑平;杨启纲;杨家沅;;过零周期转移概率矩阵语音识别部件的研制[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年

6 潘胜昔;刘加;江金涛;王作英;陆大金;;基于多模式及集成判决的稳健电话语音识别算法研究[A];第五届全国人机语音通讯学术会议(NCMMSC1998)论文集[C];1998年

7 杜利民;;语音识别中的鲁棒性问题[A];第六届全国人机语音通讯学术会议论文集[C];2001年

8 宋君;葛余博;;应用于鲁棒语音识别的置信度加权特征丢失法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

9 张明新;倪宏;陈国平;张东滨;;一种用于并行模型噪声鲁棒语音识别的特征构造方法[A];第八届全国人机语音通讯学术会议论文集[C];2005年

10 熊军军;马瑞堂;李成荣;;儿童语音识别的研究现状[A];第九届全国人机语音通讯学术会议论文集[C];2007年

相关重要报纸文章 前10条

1 特约撰稿人 Lamont Wood 编译 Charles;语音识别成长起来,并走向移动应用[N];计算机世界;2018年

2 本报记者 陶力;阿里全资收购先声互联 推动语音识别场景落地[N];21世纪经济报道;2018年

3 洪蕾;阿里研发高工业噪声环境下语音识别及传输技术[N];中国信息化周报;2018年

4 本报记者 郭科;登月早已实现,同期启动的语音识别还在路上[N];科技日报;2018年

5 本报记者 王星平;语音识别商用尴尬 应用场景垂直化路有多远[N];中国企业报;2016年

6 本报记者 余建华;从“绿皮车时代”迈入“高铁时代”[N];人民法院报;2017年

7 陈宗周;机器在聆听[N];电脑报;2017年

8 本报记者 黄旭 熊雯琳;云知声:与巨头共舞,成为AI领域BAT的密码[N];电脑报;2017年

9 本报记者 钱一彬;手机“黑科技”为何叫好不叫座[N];人民日报;2017年

10 《机器人产业》杂志副总编辑 姜姝姝;语音识别距人类只差0.4%?[N];北京日报;2017年

相关博士学位论文 前10条

1 谭天;基于结构化深度学习的语音识别自适应技术研究[D];上海交通大学;2018年

2 屠彦辉;复杂场景下基于深度学习的鲁棒性语音识别的研究[D];中国科学技术大学;2019年

3 贺苏宁;基于语音识别基元声学整体结构特征的识别模型研究[D];电子科技大学;2005年

4 陈立伟;基于HMM和ANN的汉语语音识别[D];哈尔滨工程大学;2005年

5 徐金甫;基于特征提取的抗噪声语音识别研究[D];华南理工大学;2000年

6 宁更新;抗噪声语音识别新技术的研究[D];华南理工大学;2006年

7 沈海峰;语音识别中的环境补偿研究[D];北京邮电大学;2006年

8 李小兵;高效简约的语音识别声学模型[D];中国科学技术大学;2006年

9 孙f,

本文编号:2680341


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2680341.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户284c5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com