当前位置:主页 > 科技论文 > 信息工程论文 >

基于GAN的音频关键词识别技术研究与应用

发布时间:2021-03-06 08:57
  关键词识别指在连续语音流中检测出预定义关键词。由于深度神经网络在语音识别方面有着突破性发展,近年来关键词识别的研究主要是基于语音识别展开的。这类方法首先使用声学模型和语言模型将语音信号解码成文字,然后利用文本查找方法搜索关键词。虽然这种方法能识别关键词,但存在以下问题:1、关键词识别准确率受语音识别和文字查找方法影响。2、无法检测无文字语言,该方法需要将语音转成文字,对于无文字语言不适用,例如,方言、少数民族语言等。3、无法获取关键词的时序信息,音频转录成文字后,损失了关键词的时序信息,无法知悉关键词处于音频哪个时间段。针对问题2和问题3,本文设计一种能识别无文字语言关键词且能准确获取关键词时序信息的关键词识别方法。本文将生成式对抗网络用于关键词识别,提出一种基于GAN的音频关键词识别方法,解决无文字语言关键词检测。在本文所提方法中,提取梅尔频率倒谱系数后直接输入生成式对抗网络生成器,生成器获取关键词特征,输出关键词时序信息。GAN中判别网络起监督作用,它使生成器输出序列更加贴近人工标注的标签序列。为了获取语音中关键词的位置信息,该算法定义了一个定位损失函数,这保证了生成的掩码序列可以... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:86 页

【学位级别】:硕士

【部分图文】:

基于GAN的音频关键词识别技术研究与应用


倒谱参数计算过程

过程图,特征提取,过程,倒谱


第二章关键词识别相关理论基础9倒谱是语音信号经过短时傅里叶变换得到功率谱后经对数运算后再进行傅里叶逆变换得到的谱。倒谱参数是语音信号重要的特征参数,信号经过同态处理之后就可得到倒谱参数。2.2特征提取在检测语音中的关键词之前,我们首先要从语音信号中提取出可有效表示该语音的特征参数。在语音识别中常用的几种特征参数有感知线性预测系数(PerceptualLinearPredictive,PLP)[35]、梅尔频率倒谱系数(MelFrequencyCepstralCoefficients,MFCC)[36]、滤波器组特征(Filterbank,Fbank)[37],这三种特征均是倒谱域特征。由于梅尔频率倒谱的频带是在Mel刻度上等距划分的,频率的尺度值与实际频率的对数分布关系更符合人耳的听觉特性,它比正常的对数倒频谱中的线性间隔的频带更能近似表示人类的听觉系统。由于MFCC具有上述特性,因此本文我们将其选做语音信号的特征。提取MFCC一般要经过预处理、短时傅里叶变换、Mel滤波、倒谱计算等几个步骤,其提取过程如图2-2所示。图2-2MFCC特征提取过程2.2.1预处理由于人类发声器官和采集语音信号设备等原因,采集的信号一般存在诸如混叠、高次谐波失真、高频等问题,为了使信号更均匀、平滑,需要对其做预处理。实际的语音信号是模拟信号,我们首先对模拟信号做离散化和量化处理,之后在进行预处理。预处理一般包括预加重、加窗和分郑1、预加重。经过离散化和量化之后信号的高频部分容易衰减,为了阻止高频部分衰减,那么就需要提升信号的高频部分,预加重就是通过高通滤波器来完成这一目的的。预加重之后的信号频谱变得均匀、平滑。预加重的方法是通过函数为()=11的高通滤波器来实现的。设时刻的语音采样值为(),经过预

关系图,频谱,线性,关系图


第二章关键词识别相关理论基础11图2-3线性频谱与梅尔频谱关系图那么,经过滤波器的梅尔频谱见示(2-14),M代表梅尔滤波器的个数。s(m)=∑|Xn(k)|2Hm(k)N1k=0,0≤m≤M(2-14)2.2.3倒谱计算在梅尔频谱上进行倒谱分析,即可获得梅尔频率倒谱系数。倒谱分析是指对Mel频谱取对数、做傅里叶逆变换计算。傅里叶逆变换一般是通过离散余弦变换(DCT)来实现的,其表达式见示(2-15):C(n)=∑ln(s(m))cos(πn(m0.5)M)N1m=0,n=1,2,...,L(2-15)式中,|Xn(k)|2是经过傅里叶变换得到的功率谱,其表达式在2.1.3小节中已经做过介绍,L是指梅尔频率倒谱系数的阶数,一般取12-16。2.3隐马尔可夫模型目前语音识别系统最常用的声学模型是隐马尔可夫模型(HiddenMarkovModel,HMM)[38],在语音识别、自然语言处理、模式识别等领域被广泛使用。HMM用来描述一个包含隐含未知参数的马尔可夫过程,这个过程可描述为:由马尔可夫链随机生成不可观察的状态序列,然后每个状态生成一个对应的观测值,从而产生观察序列,用图2-4来表示这个过程。图中1,2,,表示状态序列,是不可观察的,1,2,,是观察得到的序列,是可见的。那么,HMM可由一个五元组表示模型,见式(2-16):=(,,,,)(2-16)

【参考文献】:
期刊论文
[1]基于深度可分离卷积神经网络的关键词识别系统[J]. 王帅,彭意兵,何顶新.  微电子学与计算机. 2019(09)
[2]基于深度神经网络的关键词识别系统[J]. 孙彦楠,夏秀渝.  计算机系统应用. 2018(05)
[3]语音关键词识别系统声学模型构建综述[J]. 赵晓群,张扬.  燕山大学学报. 2017(06)
[4]改进的智能家居语音关键词识别算法[J]. 张帅林.  电子科技. 2017(07)
[5]基于音素后验概率的样例语音关键词检测方法[J]. 张卫强,宋贝利,蔡猛,刘加.  天津大学学报(自然科学与工程技术版). 2015(09)
[6]采用深层神经网络中间层特征的关键词识别[J]. 刘学,王年松,郭武.  小型微型计算机系统. 2015(07)
[7]基于Microsoft Speech SDK的语音关键词检出系统的设计和实现[J]. 林茜,欧建林,蔡骏.  心智与计算. 2007(04)
[8]基于支持向量机的关键词拒识算法[J]. 张搏,刘金福,张昆帆.  现代电子技术. 2006(12)
[9]基于关键词捕捉的中文语音网页浏览器[J]. 袁长海,李星.  计算机工程与应用. 2003(25)
[10]基于动态垃圾评价的语音确认方法[J]. 刘俊,朱小燕.  计算机学报. 2001(05)

硕士论文
[1]噪声环境下的语音关键词检测[D]. 谷悦.内蒙古大学 2019
[2]基于深度学习的汉语语音关键词检测方法研究[D]. 王朝松.哈尔滨工业大学 2015
[3]基于电话语音的维吾尔语关键词识别系统研究[D]. 丁玉忠.新疆大学 2011



本文编号:3066806

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3066806.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5c237***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com