当前位置:主页 > 科技论文 > 网络通信论文 >

基于深度学习的语音关键词匹配模型

发布时间:2020-07-01 13:39
【摘要】:语音是人们日常交流活动的最基本、也是最有效的一种方式。人们希望计算机能自动完成语音识别,因此语音识别技术的发展显得非常关键。随着计算机技术、互联网和人工智能的发展,网络中产生了大量的音频等数据,对语音识别的发展产生了很大作用。当今的关键词唤醒技术开始有了大量需求,其中的代表是以Siri为代表的个人数字助理以及亚马逊的智能音箱等设备,它们唤醒时用到的唤醒词检测就用到了语音关键词匹配技术。传统的语音关键词匹配多基于传统声学模型,以隐马尔可夫模型、高斯混合模型等为代表。现在的语音识别中大量用到了以深度学习为代表的神经网络模型。本课题针对语音关键词识别问题,对传统语音匹配技术和语音信号提取进行了研究,结合深度学习和相似度匹配算法等。本课题的主要研究内容包括以下几个方面:基于语音识别的语音关键词匹配模型研究。本课题以LSTM模型为基础,用CTC算法代替传统如均方误差(MSE)损失函数,比较有效地训练模型。该LSTM+CTC的框架,模型输入语音的梅尔倒频谱系数特征,经过长短时记忆网络和全连接网络输出识别的文本字符串,再利用相似度算法对识别出的两个字符串进行比较,得到匹配结果。端到端的语音关键词匹配模型研究。端到端的模型不同于语音识别的模型,不将语音转为文本,使用特征提取网络训练得到特征图谱,再经过匹配网络比较语音之间的相似度。特征提取网络有机地结合了CLDNN和孪生神经网络,模型输入语谱图作为特征,在增加模型参数量较小的情况下,在语音关键词匹配的任务上对比CNN、LSTM等达到领先性能。模型方法横向评测。通过实验论证了基于语音识别的模型使用模糊匹配和端到端的关键词匹配模型相对当前常用的CNN、LSTM、CLDNN等模型都表现良好。语音关键词匹配在实际应用中对负例要求敏感,基于语音识别的模型使用精确匹配时能达到100%的召回率,尽管其正例的效果很不理想,端对端的关键词匹配模型随着阈值的改变能保持95%左右的召回率。可见模型可以满足实际应用的要求。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.3;TP181
【图文】:

示意图,分帧,语音,示意图


而语音的预加重处理它可以弥补语音高频部分并使其成为平坦更好地分析和处理频谱信号。预加重通常以 6db/octave 数字滤波器频率特性实现。当语音信号受嘴巴的影响时,高频分量将具有更大的下降,因此在预加重之前通波器是绝对必要的。过滤器可以表示为公式 2-1 所示。 ( ) = 1 1 是预加重系数,在这里 取 0.9375。(2)分帧分帧是把语音信号分割成若干片段,以每一个片段中心时刻的一小的的信号作为一个整体的语音单位,其单位为帧(frame)。这样,到某一时刻语音信号的短时特征,对其进行频谱等处理,并分析帧续变化。语音信号的分帧可以是连续的方式,即相邻的帧之间没有分。但更多的时候分帧时相邻的帧之间有交叉重叠,这相邻帧之间分叫做帧移。一般情况下,把帧移的长度定为是帧长度的一半。每度一般取 10ms 到 20ms 之间。如图 2-1 所示。

特征参数提取,倒谱,基本流程,频率


数有矩形窗、高斯窗、汉明(Hamming)窗等等。在本论文中使用的是汉明窗。汉明窗的时域表达式如公式 2-2 所示。 ( ) = 0.54 0.46 (2 1) (2-2)其中 是时间, ( )是汉明窗的窗函数。2.2.2 梅尔倒频谱系数提取梅尔倒频谱系数(Mel-frequency cepstral coefficients,MFCC)是当前语音识别领域常用的特征,也是本文用到的语音识别特征之一,因此,这一节将介绍如何提取梅尔倒频谱系数[33]。梅尔倒频谱系数就是基于倒谱的梅尔频率特征参数,梅尔频率和线性频率的函数关系是非线性的,它们的函数关系如公式 2-3 中所示:Mel( ) = 2595 × lg 1 + 700 (2-3)其中的 为频率,单位为 Hz,Mel( )为梅尔频率。梅尔倒频谱系数的提取流程大致如图 2-2 所示。

【参考文献】

相关博士学位论文 前1条

1 陶冶;文本语音匹配的研究和应用[D];山东大学;2009年



本文编号:2736832

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2736832.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bb942***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com