当前位置:主页 > 科技论文 > 自动化论文 >

基于迁移学习的低资源度语音识别声学建模研究

发布时间:2020-04-06 10:35
【摘要】:自动语音识别(Automatic Speech Recognition,ASR)能将人类语音经过计算机处理为文字的过程,是人与机器更顺畅交流的关键技术。在自动语音识别中,声学模型的主流框架为深度神经网络-隐马尔可夫混合模型(Deep Neural Network Hidden Markov Model,DNN-HMM)。随着技术的发展,在海量语音数据加持下的深度神经网络自动语音识别系统取得了接近人类语音转写能力的优异成绩。目前世界上的语言约有7000多种,具有海量语音数据的语种仅有英语、汉语普通话等几种语言,大部分其它的语种由于语音资源采集成本较高,仅有少量的语音资源可供研究,然而在低资源环境下的深度神经网络语音识别系统效果往往表现不佳。随着社会发展的需要,将语音识别技术应用于低资源语种的需求越来越大。迁移学习是一种能够从一种或多种相似的任务中学习到知识,并利用这些学到的知识快速构建其他类似新任务的方法,称之为迁移学习。在基于深度神经网络的语音识别中DNN声学模型的每一层输出都是语音特征的深度表示,这种特征表示包含了人类语音的声学特征共性,通过调整网络参数很容易迁移为其它语种的声学模型,这为低资源语音识别能够通过迁移学习而获得较强的声学模型成为可能。为了提升基于深度神经网络的低资源语音识别声学模型的性能,本文对声学模型的迁移进行了若干方面研究。具体内容包括:跨语种的声学模型迁移是否有效;语种之间的相似性对声学模型迁移的影响;基础模型的数据量对迁移效果的影响;迁移声学模型的训练方式;单音素声学模型能否迁移到三音素声学模型;大数据量多语音共享隐层声学模型的迁移等。本文用资源丰富的汉语、英语训练基础声学模型,用维吾尔语作为低资源语种开展了各项实验。实验结果表明,迁移学习能够通过迁移基础模型来提高低资源语种声学模型的性能。
【图文】:

语音识别,人类,贝尔实验室,说话人


图 1-1 人机对话流程图随着人类计算能力的不断进步和人类对美好生活的不断向往,语音识别的很早就被提出,发展距今已有 60 余载。20 世纪 50 年代,最开始的语音识别聚焦于搭建简单基于模版匹配的孤立音识别系统。1952 年,AT&T 贝尔实验室 Davis 等人开发了 Audrey 系统[音识别以模拟元器件提取元音共振峰频率变化信息为依据对特定说话人的

语音识别系统,语音识别,资源


图 1-2 语音识别系统基本框架1.3 低资源语音识别研究现状目前世界上的语言约有 7000 种左右,使用人口最多的英语、汉语普通话等语音资源优先得到了采集,大部分其它的语种由于语音数据采集成本较高,目前语音资源较为匮乏[27]。然而,在目前主流的 DNN-HMM 语音识别系统都需要大量的语音数据进行训练,低资源环境下的 DNN-HMM 语音识别系统由于训练数据不足,声学模型不能够充分地进行训练,导致语音识别效果不如人意。数据资源在语音识别系统中有着至关重要的作用,在语音识别中,语音、标注、字典等资源的不足或缺失都属于低资源语音识别。近年来,全世界各大研究机构开始着重关注低资源语音识别,在国际上,2011 年初美国 IARPA(Intelligence AdvancedResearch Projects Activity)机构开始实行低资源语音识别的 Bable 计划[28],该计划的参与者有 MIT、剑桥、CMU、JHU 等知名语音方面的研究机构,主要研究语
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN912.34;TP181

【相似文献】

相关期刊论文 前10条

1 周弘烨;;语音识别大揭秘:计算机如何处理声音?[J];中国新通信;2019年04期

2 程建军;胡立志;;关于深度学习的语音识别应用研究[J];科技经济导刊;2019年12期

3 桑亚超;李龙杰;袁传青;霍庆磊;张乐;;关于语音识别在空调上的应用与改善[J];日用电器;2019年07期

4 牛洪波;王婉君;刘华楠;;语音识别专利技术综述[J];河南科技;2019年24期

5 向晖;;数字语音识别与合成[J];电子世界;2019年15期

6 姜姝姝;;语音识别64年大突破[J];机器人产业;2016年06期

7 吴俊宇;;语音识别为何“叫好不叫座”?[J];通信世界;2016年16期

8 徐鑫;;语音识别的未来之路[J];通信世界;2016年16期

9 张连仲;;带着使命感出发[J];英语学习;2017年01期

10 张凯;;荣威eRX5静态体验 “人性化”语音识别是亮点[J];新能源汽车新闻;2017年01期

相关会议论文 前10条

1 张冰;龙长才;罗海风;;熟悉掩蔽音背景下的目标语音识别[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年

2 于东;贾磊;徐波;;面向语音识别错误恢复的澄清式疑问句生成[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 邢安昊;黎塔;颜永红;;利用二重打分方法的激活词语音识别[A];中国声学学会第十届青年学术会议论文集[C];2013年

4 文成义;何海燕;张玉扶;;基于新型神经网络的不定人语音识别[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年

5 杜笑平;杨启纲;杨家沅;;过零周期转移概率矩阵语音识别部件的研制[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年

6 潘胜昔;刘加;江金涛;王作英;陆大金;;基于多模式及集成判决的稳健电话语音识别算法研究[A];第五届全国人机语音通讯学术会议(NCMMSC1998)论文集[C];1998年

7 杜利民;;语音识别中的鲁棒性问题[A];第六届全国人机语音通讯学术会议论文集[C];2001年

8 宋君;葛余博;;应用于鲁棒语音识别的置信度加权特征丢失法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

9 张明新;倪宏;陈国平;张东滨;;一种用于并行模型噪声鲁棒语音识别的特征构造方法[A];第八届全国人机语音通讯学术会议论文集[C];2005年

10 熊军军;马瑞堂;李成荣;;儿童语音识别的研究现状[A];第九届全国人机语音通讯学术会议论文集[C];2007年

相关重要报纸文章 前10条

1 通讯员 魏霈侃;从学霸、学者到创业者的华丽转身[N];中国教育报;2016年

2 特约撰稿人 Lamont Wood 编译 Charles;语音识别成长起来,并走向移动应用[N];计算机世界;2018年

3 本报记者 陶力;阿里全资收购先声互联 推动语音识别场景落地[N];21世纪经济报道;2018年

4 洪蕾;阿里研发高工业噪声环境下语音识别及传输技术[N];中国信息化周报;2018年

5 本报记者 郭科;登月早已实现,同期启动的语音识别还在路上[N];科技日报;2018年

6 本报记者 王星平;语音识别商用尴尬 应用场景垂直化路有多远[N];中国企业报;2016年

7 本报记者 余建华;从“绿皮车时代”迈入“高铁时代”[N];人民法院报;2017年

8 陈宗周;机器在聆听[N];电脑报;2017年

9 本报记者 黄旭 熊雯琳;云知声:与巨头共舞,,成为AI领域BAT的密码[N];电脑报;2017年

10 本报记者 钱一彬;手机“黑科技”为何叫好不叫座[N];人民日报;2017年

相关博士学位论文 前10条

1 屠彦辉;复杂场景下基于深度学习的鲁棒性语音识别的研究[D];中国科学技术大学;2019年

2 贺苏宁;基于语音识别基元声学整体结构特征的识别模型研究[D];电子科技大学;2005年

3 陈立伟;基于HMM和ANN的汉语语音识别[D];哈尔滨工程大学;2005年

4 徐金甫;基于特征提取的抗噪声语音识别研究[D];华南理工大学;2000年

5 宁更新;抗噪声语音识别新技术的研究[D];华南理工大学;2006年

6 沈海峰;语音识别中的环境补偿研究[D];北京邮电大学;2006年

7 李小兵;高效简约的语音识别声学模型[D];中国科学技术大学;2006年

8 孙f

本文编号:2616401


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2616401.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c53f8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com