当前位置:主页 > 科技论文 > 网络通信论文 >

噪声环境下孤立词语音识别研究

发布时间:2020-10-31 10:52
   通常人类可以在背景音乐、引擎声音和其他声学噪音环境中识别语音,但自动语音识别(Automatic Speech Recognition,ASR)系统在这种环境中表现不佳。最近在神经科学方面的实验和理论工作已经发现了许多可以用来解决这个问题的方法。本文基于生物启发的ASR方法在噪声环境下进行对ASR稳健性的研究。首先本文对谱时响应野(Spectrotemporal Receptive Field,STRF)进行理论研究,通过对比基于STRF的目标函数和ETSI在不同信噪比环境下的识别率,实验结果证明以听觉神经元STRF为模型的ASR在噪声环境下稳健性有所提高,但其整体性能没有明显改善。其次,本文使用基于尖峰模型神经元的语音表征方法,该方法中的神经元是特征检测器,其在语音的短时间窗口内选择性地响应时间特征。并且提出一种基于支持向量机(Upport Vector Machine,SVM)的训练神经元响应特性的方法,将STRF中的神经元计算结果与先前无辅助手段下的神经响应结果进行比较,发现神经元中的尖峰序列能够提高系统稳健性。本文使用两种方法对基于尖峰的语音表征进行解码,第一种方法使用基于隐马尔可夫模型的经典ASR技术;第二种方法是一种改进的基于模板的识别方法,该方法是基于尖峰序列之间最长公共子序列的语音相似性度量。在不同信噪比环境下进行正交优化实验,实验结果表明性能最优的组合为基于尖峰模型神经元的语音表征和改进的基于模板的识别方法。最后,应用标记音节核心位置的音节检测方法来解码连续语音的尖峰表征,该方法通过将音节信息并入ASR系统,并结合基于SVM的训练与峰值选择算法。使用该方法与传统方法在不同信噪比环境下进行连续语音解码,实验结果表明该方法有效提高在噪声条件下的识别率。然而,该方法在无噪声条件下的识别率低于传统方法。
【学位单位】:长春理工大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN912.34
【部分图文】:

听觉,差距,语音识别


果差距仍然很大。2005 年,Sroka 和 Braida 在音识别结果与人类听觉结果进行比较,其信噪]。2011 年一项类似研究中也发现了 15 dB 的差足[3]。2013 年基于神经科学启发方法的研究中语音识别会有 10 dB 的性能差距(图 1.2)[4]。

听觉,数字识别,人类,差距


结果差距仍然很大。2005 年,Sroka 和 Braida 在加性 的辅音识别结果与人类听觉结果进行比较,其信噪比(1)[2]。2011 年一项类似研究中也发现了 15 dB 的差距,不足[3]。2013 年基于神经科学启发方法的研究中发现用语音识别会有 10 dB 的性能差距(图 1.2)[4]。图 1ASR 辅音识别与人类听觉相比较

听觉通路


1.2.2 大脑中的听觉表示和编码大脑处理语音和其他声音如图1.3所示,进入耳朵的声音通过中耳骨传递到耳蜗。耳蜗的基底膜与语音中的各种频率分量共振,将这些振动转换成通过听觉神经发送到大脑的电信号。在脑干中,耳蜗核中的各种细胞类型对电信号进行归一化和调制检测,并将信号分离成“流”用于源定位和模式识别[19,21]。信息通过上橄榄体两耳信号合并继续到下丘(Inferior Colliculus, IC)。IC开始识别基本的时频调制,并通过丘脑的内侧膝状体核(Medial Geniculate Nucleus, MGN)将信号发送到皮层[19,22,23],研究重点在听觉皮层上。图 1.3 听觉通路图系统神经科学最近的工作揭示了有关神经反应及其在该领域信息处理中的作用的见解。这些见解几乎没有涉及到 ASR,因此为新的基于生物学启发的方法提供了丰富的想法。1.2.2.1 谱时响应野(Spectrotemporal Receptive Field, STRF)30 年前首先由 Aertsen 和 Johannesma 提出听觉神经元的 STRF,这些研究的结果
【参考文献】

相关期刊论文 前1条

1 麦麦提艾力·吐尔逊;戴礼荣;;深度神经网络在维吾尔语大词汇量连续语音识别中的应用[J];数据采集与处理;2015年02期


相关博士学位论文 前2条

1 张仕良;基于深度神经网络的语音识别模型研究[D];中国科学技术大学;2017年

2 游大涛;基于听觉机理的鲁棒特征提取及在说话人识别中的应用[D];哈尔滨工业大学;2013年


相关硕士学位论文 前5条

1 刘胜江;连续数字语音识别系统的研究及应用[D];浙江工业大学;2016年

2 朱晓明;序列的公共特征提取算法研究[D];大连理工大学;2016年

3 王一蒙;语音识别关键技术研究[D];电子科技大学;2015年

4 王真真;改进的稀疏最小二乘支持向量机在语音识别中的应用[D];太原理工大学;2014年

5 郭伟;基于听觉神经原理的语音信号处理[D];上海交通大学;2009年



本文编号:2863849

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2863849.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8c108***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com