当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的调频广播语种识别模型及应用

发布时间:2021-11-20 04:16
  随着社会经济的高速发展以及全球化进程的加快,全球范围内的人员流动增加了拥有不同语言背景的人相互交流的机会,自动语种识别作为语音识别的第一步显得十分重要。全球人工智能的快速发展也促进了各项技术的升级,语音技术作为人类信息交流的桥梁技术,引得越来越多的科研工作者投入到实现良好语音交互的行列中。包括边境地区的无线电通信安全问题,也可采用语音识别的方法进行监测,实现快速精准的语种识别对后续所有与语音识别相关的工作显得极为重要。本文围绕广播的语音语种识别,对语种识别方法进行了详细的讨论与研究,主要工作如下:1)根据语种识别领域的对数据集的要求,采集了老挝语、普通话、缅甸语、泰国语和越南语共5种语言约25小时的数据集,并通过与其他数据集对比研究,确认数据的可靠性。2)结合语音处理的方法,建立广播信号识别数据集,利用深度学习对调频广播信号扫频录音保存后音频文件进行识别,以此来识别信号与非信号。3)采用I-Vector的方法建立可靠语种识别的基线系统,为后续试验的改进提供可靠的理论依据。4)以深层神经网络为基础,针对短时变长的语音信号,设计了两种采用底层声学特征作为输入的深度学习的语种识别方法。一种是... 

【文章来源】:云南大学云南省 211工程院校

【文章页数】:75 页

【学位级别】:硕士

【部分图文】:

基于深度学习的调频广播语种识别模型及应用


图1-1所示的一种语吉的语音到另一种语言的语音的转换,是在确记了待??1??

结构图,语种,特征层,结构图


中模型训练和模型测试,又可以分为模型的构建、训练和测试,关容将会在下面章节做详细介绍。在这里主要介绍特征提取,特征提理阶段,提取出的特征在语种识别中用于区分不同语种。由于该类言类别区分性,特征提取阶段要减弱或者消除语音信号中所携带的类无关的信息。语种识别系统用于分类的特征从底层特征到高层特征征(Acoustic)、音位序列特征(Phonotactics)、韵律特征(Prosodic)、cal)和语法(Syntactic),如图?1-3?所不[21。??声学特征。语音作为语言系统中的实体是音素[3),??种语言中使用的数量在15到50个不等,其中大多数语言使用的音素大约有30个[4]。普通话有21个辅音10个元音,英语有24个辅荇和14个元音W。言可能会拥有共同的因素,但不同语言其语音由不同的声学单元构于这一点,可以通过对语音信号分帧和加窗提取声学特征用于语种识

客家话,闽南话,上海话,智能手机


?云南大学硕士学位论文???(changsha)、河北话(hebei)、南昌话(nanchang)、上海话(shanghai)、客家话??(kejia)和闽南话(minnan)。音频数据由各个型号的智能手机采集,录制环境包??含安静环境和噪声环境,采样率为16kHz,以16bits量化的PCM格式存储。训练??数据每种语言包含30人,男女各15人,每人200句。测试数据包含5人,2名女??性3名男性,每人100句。数据具体描述见表1-1。??


本文编号:3506546

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3506546.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4f301***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com