当前位置:主页 > 科技论文 > 信息工程论文 >

端到端的语音识别研究

发布时间:2020-11-15 13:33
   近年来,随着计算力和数据量的提升,深度学习成为了语音识别领域最火热的方法之一。在深度学习的影响下,基于隐马尔可夫模型和神经网络(Hidden Markov Model-Depp Neural Network,HMM-DNN)方法的混合语音识别系统在识别准确率上有了显著的提升,这主要得益于大数据驱动下深层神经网络对声学状态后验概率的强大建模能力。尽管如此,混合系统仍然存在着训练流程复杂,解码空间大等问题。为了简化整个语音识别的过程,端到端的语音识别方法横空出世。其方法主要可以分为三类:连续时间分类模型(Connectionist Temporal Classification,CTC),循环神经网络转换机模型(Recurrent Neural Network-Transducer,RNN-Transducer)和基于注意力机制的序列模型(Attention-based End-to-End Model,A-E2E)。端到端的模型在简化语音识别的流程的同时,在某些任务上已经能够与混合系统媲美。但是该方法仍然存在很多问题。对此,本文选取两种典型的端到端模型进行了深入的研究,具体如下:1.研究了基于CTC模型的端到端语音识别方法,并提出了一种符合人耳听觉特性的全梅尔频谱特征。在基于神经网络的语音识别系统中,语音的前端处理网络结构一直未有定论。本文通过对比不同语音输入特征的优势提出了一种新的全梅尔频谱特征,同时将该特征与卷积神经网络(Convolutional Neural Network,CNN)结合作为语音的前端处理网络得到了理想的效果。进一步,本文探究了浅层CNN在CTC框架中的作用及其卷积核参数的设计原则。2.研究了基于注意力机制的序列模型,实现了听,注意,拼写(Listen Attend and Spell,LAS)的语音识别框架,并提出了一种新的加入词级别语言模型解码的方法。通常情况下,LAS模型存在训练难收敛,解码效果差等问题,本文实现了基于LAS的端到端语音识别系统,并在该系统下对LAS模型进行优化,包括训练和解码的技巧。同时LAS模型的外部语言模型融合问题也是一大难点,本文针对LAS模型解码难以加入词级别语言模型的问题提出了一种新的解决思路。3、研究了LAS模型中区分性训练的问题,在LAS模型中提出了基于最大互信息准则的区分性训练方法。与传统语音识别方法一样,为了能够进一步提升模型的识别能力,LAS的区分性训练是一个亟待解决的问题。本文借鉴传统语音识别中的方法,在LAS上实现了基于最小词错率(Minimum Word Error Rate,MWER)的区分性训练方法,并提出了基于最大互信息(Maximum Mutual Information,MMI)的区分性训练方法。实验表明,MMI与MWER准则相比于交叉熵准则在识别率上均有提升。4、研究了 LAS模型的在线化问题,提出了一种自适应单调窗注意力机制(Adaptive Monotonic Chunkwise Attention,AMoChA)。标准的LAS模型往往不能满足语音识别低延迟的要求,难以在线使用。本文提出了一种实现LAS模型流式的方法,在encoder端使用延时控制结构,在注意力部分提出了一种流式的注意力机制。最后在1000h搜狗中文听写数据集上,该方法降低了LAS模型的延迟,能够实时解码,同时字错误率相比离线LAS模型仅相差相对3.5%,在一个可以接受的范围内。综上,本文对两种端到端的语音识别方法(CTC和LAS)进行了探究。对于LAS模型中存在的外部语言模型,区分性训练,在线化等问题进行了探讨并尝试解决,最后均取得不错的效果。
【学位单位】:北京邮电大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TN912.34;TP18
【部分图文】:

序列,语音识别系统,声学模,模型


2.1传统的语音识别方法??本文将端到端方法出现之前的方法统称为传统的语音识别方法。一个典??型的传统语音识别流程如图2-1所示。??L?」—mm—mm??|?i川练、???^训练____??[ZZ3-—EZI]??图2-1传统语音识别系统组成??从图中可以看出,传统的语音识别系统中需要三个模型,分别为声学模??型,语言模型和发音词典模型。其中声学模型需要通过语音与其转写构成的??数据对进行训练得到,通常为HMM-GMM模型或者是HMM-DNN混合模??型。语言模型通过大量的文本数据训练得到,通常为n-gmm模型或者是RNN??语言模型。发音词典模型为音素到词的映射规则,通常在语种确定的情况下,??其规则是确定的,比如在中文语音识别中,发音词典就是从词语到其带调的??拼音之间的映射规则。??语音识别的过程之所以分为这些部分是由其任务决定的。假设输入的语??音序列为X,输出文本序列W,则该文本序列的后验概率为p(w|x)。通过贝叶??斯准则

序列,映射网络,标签


白标签的作用,考虑输出类别中没有空白标签的情况。在该情况下,会个很明显的问题:??第一个问题是重复字符(叠词)的问题,假设没有空白标签,映射F仅仅是单纯的去除重复,那么将无法处理标签中有重复的情况。比如中的叠词。加入空白之后,在叠词之间出现blank类的话,在经过F映后,序列中仍然会有叠词的出现,从而避免了这一问题。??第二个问题是对齐问题,网络的输出会得到连续的分类输出,这些的输出往往没有标注。加入blank之后能很好的将连续的分类输出与句别的标签进行对应,最后连续的分类输出的结果便是该句子级别标签的结果。??经过逆向思维之后,就会明显发现加入空白标签的作用,当然也有不加入空白标签,然后更改了多到一的映射规则,同样得到了不错的效果[但是目前主流的方法仍然需要增加空白标签来解决上述两个问题。??2.2.1.3前向后向算法??

计算图,损失函数,计算图


?能够同时考虑到声学模型和语言模型的信息,解决了?CTC中存在的输出独??立的假设。RNN-T的结构如图2-3所示。??三维输出??????????.....^??i??文本标签?语音特征??图2-3?RNN-Transducer结构示意图,声学模型RNN为CTC方法中的网络部分??图中的联合网络有多种方法Graves采用最直接的维度扩展相加方式,??假设声学模型RNN?(RNN-AM)的输出为/tfc,表示RNN-AM在时刻t输出类??别k的概率。语言模型RNN?(RNN-LM)的输出为表示在第u个字符出??输出为类别k的概率。则联合网络的输出为:??h(k,?t,?u)?=?ftk?+?(2-27)??输出为一个三维的向量,其任意一个值表示在时刻t且在位置u输出类??别为k的概率。因此RNN-T的输出与标签之间构成的损失函数计算网络发??生了变化。如图2-4所示:??t?f?t?-?t??-O^Q^O^O^O??rsj?T?) ̄J—???]??以請鲁?,?^??12?3?4??t??图2-4?RNN-T损失函数计算图[21]??类似于CTC损失函数的计算使用前向后向算法。这里定义前向概率??a(t,u),表示在时间1-t输出字符1-u的概率。图中点(t,u)的前向累积概率。??从图中可以得到输出条件和递归公式:?
【相似文献】

相关期刊论文 前10条

1 桑亚超;李龙杰;袁传青;霍庆磊;张乐;;关于语音识别在空调上的应用与改善[J];日用电器;2019年07期

2 向晖;;数字语音识别与合成[J];电子世界;2019年15期

3 周弘烨;;语音识别大揭秘:计算机如何处理声音?[J];中国新通信;2019年04期

4 程建军;胡立志;;关于深度学习的语音识别应用研究[J];科技经济导刊;2019年12期

5 姜姝姝;;语音识别64年大突破[J];机器人产业;2016年06期

6 吴俊宇;;语音识别为何“叫好不叫座”?[J];通信世界;2016年16期

7 徐鑫;;语音识别的未来之路[J];通信世界;2016年16期

8 张连仲;;带着使命感出发[J];英语学习;2017年01期

9 张凯;;荣威eRX5静态体验 “人性化”语音识别是亮点[J];新能源汽车新闻;2017年01期

10 刘宝华;;语音识别老祖宗[J];经营者(汽车商业评论);2017年03期


相关博士学位论文 前10条

1 屠彦辉;复杂场景下基于深度学习的鲁棒性语音识别的研究[D];中国科学技术大学;2019年

2 贺苏宁;基于语音识别基元声学整体结构特征的识别模型研究[D];电子科技大学;2005年

3 陈立伟;基于HMM和ANN的汉语语音识别[D];哈尔滨工程大学;2005年

4 徐金甫;基于特征提取的抗噪声语音识别研究[D];华南理工大学;2000年

5 宁更新;抗噪声语音识别新技术的研究[D];华南理工大学;2006年

6 沈海峰;语音识别中的环境补偿研究[D];北京邮电大学;2006年

7 李小兵;高效简约的语音识别声学模型[D];中国科学技术大学;2006年

8 孙暐;听觉特性与鲁棒语音识别算法研究[D];东南大学;2006年

9 雷建军;噪声鲁棒语音识别中若干问题的研究[D];北京邮电大学;2007年

10 孙成立;语音关键词识别技术的研究[D];北京邮电大学;2008年


相关硕士学位论文 前10条

1 张洪;基于Sphinx语音识别的智能家庭管家机器人的设计[D];武汉工程大学;2018年

2 易雪蓉;电力系统下语音识别的研究与应用[D];武汉工程大学;2018年

3 金丹彤;基于表面肌电信号的无声语音识别算法研究[D];浙江大学;2019年

4 史舜威;多特征智能批改模型的研究和应用[D];北京邮电大学;2019年

5 黄学峰;面向电信诈骗的反诈平台技术研究[D];北京邮电大学;2019年

6 陈洪恒;基于深度学习的语音识别方法研究[D];哈尔滨理工大学;2019年

7 李海强;基于HTK的汉语离散和连续数字语音识别研究[D];哈尔滨理工大学;2019年

8 刘娟宏;基于深度卷积神经网络的中文语音识别[D];太原理工大学;2019年

9 史燕燕;面向语音识别的抗噪听觉特征提取及优化[D];太原理工大学;2019年

10 娄英丹;增强与自适应联合的远场语音识别算法研究[D];太原理工大学;2019年



本文编号:2884809

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2884809.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f06ab***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com