当前位置:主页 > 科技论文 > 网络通信论文 >

深度视音频双模态语音识别方法

发布时间:2020-11-02 01:10
   语音识别是人工智能、自然语言处理和信号处理的基本问题,尤其在近十年的深度学习的勃兴中得到了巨大的发展。但是,语音识别仍然面临着很多挑战和缺陷,例如噪音环境,嘈杂背景,方言的混淆等。针对这些缺陷,前人提出了鲁棒语音识别,并给出了四类解决方案:基于特征空间,基于信号空间,基于模型空间和基于多模态信息,其中基于多模态信息的鲁棒语音识别的主要方向是视音频双模态语音识别(Audio-visual Speech Recognition,AVSR)。视音频双模态语音识别是指利用语音识别中视觉信息和听觉信息的天然关联性,在语音识别中加入视觉信息,其目的在于提高语音识别的鲁棒性。经过几十年的研究探索,视音频双模态语音识别得到了长足的进步,但是视音频双模态语音识别的存在着时态信息利用不完全,忽视多模态特征表达之间的相互作用关系等问题。结合深度神经网络,本文主要探讨深度视音频双模态语音识别的相关方法,主要做了两方面的研究。本文提出了一种适用于视音频双模态语音识别的基于无监督学习和监督学习相结合的深度时态框架模型。本文提出将整个融合过程分解为:模态融合、含有时态因素的模态融合和时态融合。其具体步骤如下:1.对视觉信息和语音信息进行预处理,并采用深度卷积神经网络(CNN)和短时傅里叶变换取得视觉特征和语音特征;2.采用多模态深度自编码网络进行视觉特征和语音特征的模态融针对大多数视音频双模态语音识别对时态信息利用不完全的问题合;3.采用堆叠循环时态网络将模态融合过后的特征再进行进一步的融合,此过程不对时态信息进行处理,但是此融合过程会更好地考虑时态因素;4.采用循环时态网络和池化过程,将多时态特征融合为单一的描述子。我们在AVLetters2,AVDigits,CUAVE和AVLetters数据库上进行了定量的视音频双模态语音识别和跨模态语音识别的实验证明了提出算法的有效性。在指标上,提出的方法优于过往的深层和浅层模型。针对视音频双模态语音识别忽视多模态特征表达之间的相互作用关系的问题,本文提出了的多模态辅助损失门控循环网络模型。这个模型将视音频双模态语音识别的流程分解为:特征提取、数据增强和融合识别。其中,特征提取和数据增强是融合识别的前置条件,我们使用论文提出的一整套的特征提取和数据增强方法。融合识别采用一种基于端对端的多模态辅助损失门控循环网络模型。基于网络结构,本文提出了一个新的损失函数——辅助损失,去训练此网络。辅助损失会平衡音频特征表达、视频特征表达和音视频特征表达之间的关系。我们在AVLetters2,AVDigits,CUAVE和AVLetters数据库上进行了定量的视音频双模态语音识别和跨模态语音识别的实验证明了提出模型和数据增强方法的有效性。并在实验中展示了生成数据增强的结果,验证了辅助损失的有效性。在指标上,提出方法的识别精度优于过往的模型。
【学位单位】:中国科学院大学(中国科学院西安光学精密机械研究所)
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN912.34
【部分图文】:

双模态,语音识别,视音频,基本步骤


图 1.1 视音频双模态语音识别的基本步骤Figure 1.1 Steps ofAudio-visual Speech Recognition.1,视音频双模态语音识别分为 2 个基本步骤:特征,我们将视音频双模态语音识别的研究现状的阐述合&识别层面两大类。征层面层面的研究是起步最早的研究方向之一,也是一个脸识别技术、图像识别、目标检测和语音识别都有为听觉特征和视觉特征 2 小节:

问题,方法,时态信息,监督学习


图 1.2 现有方法存在的普遍问题Figure 1.2 The Problems of existing models点频双模态语音识别时态信息利用不完全的问题,本研究。本文试图通过研究融合&识别层面的视音频究提供理论支撑。因此本文的创新点分为两个部分型;二是多模态辅助损失门控循环网络模型。态框架模型的创新点频双模态语音识别时态信息利用不完全的问题, 我们监督学习和监督学习相结合实现充分利用时态因素

基本流程,时态,自编码,多模态


第2章 深度时态框架模型现有方法的不足,我们提出了一种基于无监督学习和现充分利用时态因素的视音频双模态语音识别的模度时态框架模型的模型流程图。首先进行预处理并提用多模态深度自编码网络作为视音频模态融合(mo堆叠长短时记忆网络作为含有时态因素的模态融合(,采用长短时记忆网络和池化层作为时态融合(t用前向连接网络作为识别网络得到识别结果。在接回顾模型的两个主要组成部分:多模态深度自编码网络(Long Short Term Memory,LSTM),之后提出行实验。
【相似文献】

相关期刊论文 前10条

1 程建军;胡立志;;关于深度学习的语音识别应用研究[J];科技经济导刊;2019年12期

2 周弘烨;;语音识别大揭秘:计算机如何处理声音?[J];中国新通信;2019年04期

3 姜姝姝;;语音识别64年大突破[J];机器人产业;2016年06期

4 吴俊宇;;语音识别为何“叫好不叫座”?[J];通信世界;2016年16期

5 徐鑫;;语音识别的未来之路[J];通信世界;2016年16期

6 张连仲;;带着使命感出发[J];英语学习;2017年01期

7 张凯;;荣威eRX5静态体验 “人性化”语音识别是亮点[J];新能源汽车新闻;2017年01期

8 刘宝华;;语音识别老祖宗[J];经营者(汽车商业评论);2017年03期

9 司马宁;;智能电视,语音识别或成突破口[J];消费指南;2017年05期

10 ;宝马 用科技打造“未来之家”[J];中国汽车市场;2016年11期


相关博士学位论文 前10条

1 贺苏宁;基于语音识别基元声学整体结构特征的识别模型研究[D];电子科技大学;2005年

2 陈立伟;基于HMM和ANN的汉语语音识别[D];哈尔滨工程大学;2005年

3 徐金甫;基于特征提取的抗噪声语音识别研究[D];华南理工大学;2000年

4 宁更新;抗噪声语音识别新技术的研究[D];华南理工大学;2006年

5 沈海峰;语音识别中的环境补偿研究[D];北京邮电大学;2006年

6 李小兵;高效简约的语音识别声学模型[D];中国科学技术大学;2006年

7 孙暐;听觉特性与鲁棒语音识别算法研究[D];东南大学;2006年

8 雷建军;噪声鲁棒语音识别中若干问题的研究[D];北京邮电大学;2007年

9 孙成立;语音关键词识别技术的研究[D];北京邮电大学;2008年

10 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年


相关硕士学位论文 前10条

1 徐海;基于语音识别的智能家居方案设计研究[D];浙江理工大学;2019年

2 陈长鑫;基于嵌入式技术及云技术的机器人语音识别研究[D];东北大学;2017年

3 潘莹;基于HMM的连续语音识别系统的设计[D];中南民族大学;2016年

4 田春霖;深度视音频双模态语音识别方法[D];中国科学院大学(中国科学院西安光学精密机械研究所);2018年

5 杨阳;基于HMM和BP神经网络的汉语语音识别系统研究[D];东北大学;2017年

6 朱明星;车载噪声背景下的语音识别中减噪技术研究[D];安徽工业大学;2018年

7 李要嫱;基于主动学习的藏语语音识别在在线教育中的应用[D];中央民族大学;2018年

8 向佳豪;语音识别软件对口译学生汉英同声传译的影响研究[D];北京外国语大学;2018年

9 高思萌;讯飞语音识别对英汉交传笔记的影响[D];北京外国语大学;2018年

10 陈皇;基于神经网络的语音识别声学模型压缩研究[D];中国科学技术大学;2018年



本文编号:2866363

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2866363.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3cebf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com