基于语音技术的学前儿童言语功能自动评估系统研究
发布时间:2021-07-20 05:55
言语障碍通常指的是包括语言能力、说话能力和听觉等沟通问题的总称。在我国儿童群体中,言语障碍的发病率较高,且研究表明,言语障碍对儿童的健康成长影响很大,容易对儿童认知功能的发展和心理发育造成影响,进而出现情绪和行为上的问题。但同时有很多研究表明,在言语障碍中占比最高的功能性构音障碍儿童在言语获得的早期经过及时的干预和治疗后,可以取得很大改善甚至完全康复,故对学前儿童言语功能做综合客观评估至关重要,可为患儿创造及时确诊的机会,以便采取有针对性的策略进行干预和康复治疗。本论文主要研究针对学前儿童的言语功能自动评估系统。该系统基于语音识别和语音信号处理技术,对儿童言语系统的构音功能和发声功能进行可靠、便捷、实时的综合评估。同时,评估系统基于语音识别技术,且研究表明,基于语音识别的言语自动评估系统性能与语音识别系统本身高度相关。因此,本系统还根据中文儿童发音的特点,分析了Pitch特征、语速扰动、音量扰动对儿童语音识别性能影响,并进一步分析这些因素对言语功能自动评估系统的影响。最后,还基于声强检测和基频检测算法对正常儿童和构音障碍儿童语音的声强和基频分布做统计分析。通过实验发现,增加Pitch特...
【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
语音识别系统
基于语音技术的学前儿童言语功能自动评估系统研究2.学习问题。已知观测序列=(1,2,...,),估计模型=(,,)参数,使得在该模型下观测序列概率(|)最大,即基于最大似然估计的方法估计参数。3.解码问题。已知模型=(,,)和观测序列=(1,2,...,),求使得给定观测序列条件概率(|)最大的状态序列=(1,2,...,)。即给定观测序列,求最有可能的对应的状态序列。一个典型的HMM的拓扑结构如下图2.3所示,包含5个隐藏状态,其中3个可以向前跳跃和自循环的状态称之为发射状态,2个只能向前跳跃的状态称之为连接状态。=(+1=|=)是在时刻t处于状态d条件下在时刻t+1转移到状态的状态间转移概率。()=(=|=)是在时刻t处于状态状态的条件下生成观测的概率。通常我们使用GMM(GaussianMixtureModel,GMM)或DNN(DeepNeuralNetwork,DNN)来拟合观测序列的概率分布,分别对应GMM-HMM模型和DNN-HMM模型。图2.3HMM拓扑结构图2.2.2语言模型对于语言L,其服从某个未知概率分布P,我们根据给定的语言文字样本去估计P的过程被称作统计语言建模,如下公式2.3:∑∈()=1(2.3)从统计角度看,自然语言中的一个句子可以由任何词串构成,如果用变量S代表文本中一个任意的词序列,它由顺序排列的L个词组成,即=1,2...,则统计语言模型就是该词序列S在文本中出现的概率P(s),使用概率乘积的链式10
基于语音技术的学前儿童言语功能自动评估系统研究3.2声学模型训练声学模型训练基于Povey等[43]开发的Kaldi语音识别平台。训练流程如下图3.1所示。图3.1声学模型训练流程3.2.1声学特征提取声学特征提取主要是将语音由时域信号转换为频域信号,再借鉴人耳的处理机制,最终产生声学特征(AcousticFeature)。声学特征提取可以使语音信息更容易暴露,且大大降低算法优化的压力,在某种程度上也起到降维的效果,提高计算效率,比如在16kHz下的25ms语音共400个数值,通过特征提取可转换为40维的声学特征。常用的声学特征有FBANK、MFCC和PLP。在本系统中,我们使用MFCC作为基础声学特征。同时,考虑到中文具有音调,为了分析Pitch特征对于中文学前儿童语音识别系统的性能的影响,在MFCC基础上拼接Pitch特征作为另一组声学特征用以训练和解码。在GMM-HMM阶段,使用13维的MFCC特征,在TDNN-HMM阶段,考虑到神经网络模型的训练,我们使用40维的高分辨率MFCC特征。3.2.1.1MFCC特征提取MFCC特征的提取流程如下图3.2所示。图3.2MFCC特征的提取流程1.预加重:语音中有频谱倾斜(SpectralTilt)现象,即低频具有较高能量,因此需要加重高频语音的能量,使高频信息凸显出来,其计算公式如下式3.1所14
【参考文献】:
期刊论文
[1]儿童功能性构音障碍危险因素分析[J]. 钱慧霞,陈卫红,汪晓玲,黄诚茵. 中国妇幼保健. 2017(01)
[2]功能性构音障碍患者舌尖中音异常的语音特点及康复训练[J]. 徐丽娜,李峰,高楠,张艳云,吕自愿. 听力学及言语疾病杂志. 2016(04)
[3]构音障碍评估研究述评[J]. 李欢. 中国特殊教育. 2010(06)
[4]67例功能性构音障碍发病相关因素探讨[J]. 张丽,鲁兰,岳虹霓. 中国实用儿科杂志. 2007(11)
[5]功能性构音障碍儿童的神经心理特征[J]. 宋辉青,赵亚茹,华天懿,赵云静. 中国妇幼保健. 2007(18)
[6]功能性构音障碍儿童构音特点分析及言语矫治[J]. 赵云静,孙洪伟,赵亚茹. 中国康复. 2006(02)
博士论文
[1]基于语音识别的构音及语音障碍自动评估系统研制[D]. 司博宇.华东师范大学 2014
本文编号:3292271
【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
语音识别系统
基于语音技术的学前儿童言语功能自动评估系统研究2.学习问题。已知观测序列=(1,2,...,),估计模型=(,,)参数,使得在该模型下观测序列概率(|)最大,即基于最大似然估计的方法估计参数。3.解码问题。已知模型=(,,)和观测序列=(1,2,...,),求使得给定观测序列条件概率(|)最大的状态序列=(1,2,...,)。即给定观测序列,求最有可能的对应的状态序列。一个典型的HMM的拓扑结构如下图2.3所示,包含5个隐藏状态,其中3个可以向前跳跃和自循环的状态称之为发射状态,2个只能向前跳跃的状态称之为连接状态。=(+1=|=)是在时刻t处于状态d条件下在时刻t+1转移到状态的状态间转移概率。()=(=|=)是在时刻t处于状态状态的条件下生成观测的概率。通常我们使用GMM(GaussianMixtureModel,GMM)或DNN(DeepNeuralNetwork,DNN)来拟合观测序列的概率分布,分别对应GMM-HMM模型和DNN-HMM模型。图2.3HMM拓扑结构图2.2.2语言模型对于语言L,其服从某个未知概率分布P,我们根据给定的语言文字样本去估计P的过程被称作统计语言建模,如下公式2.3:∑∈()=1(2.3)从统计角度看,自然语言中的一个句子可以由任何词串构成,如果用变量S代表文本中一个任意的词序列,它由顺序排列的L个词组成,即=1,2...,则统计语言模型就是该词序列S在文本中出现的概率P(s),使用概率乘积的链式10
基于语音技术的学前儿童言语功能自动评估系统研究3.2声学模型训练声学模型训练基于Povey等[43]开发的Kaldi语音识别平台。训练流程如下图3.1所示。图3.1声学模型训练流程3.2.1声学特征提取声学特征提取主要是将语音由时域信号转换为频域信号,再借鉴人耳的处理机制,最终产生声学特征(AcousticFeature)。声学特征提取可以使语音信息更容易暴露,且大大降低算法优化的压力,在某种程度上也起到降维的效果,提高计算效率,比如在16kHz下的25ms语音共400个数值,通过特征提取可转换为40维的声学特征。常用的声学特征有FBANK、MFCC和PLP。在本系统中,我们使用MFCC作为基础声学特征。同时,考虑到中文具有音调,为了分析Pitch特征对于中文学前儿童语音识别系统的性能的影响,在MFCC基础上拼接Pitch特征作为另一组声学特征用以训练和解码。在GMM-HMM阶段,使用13维的MFCC特征,在TDNN-HMM阶段,考虑到神经网络模型的训练,我们使用40维的高分辨率MFCC特征。3.2.1.1MFCC特征提取MFCC特征的提取流程如下图3.2所示。图3.2MFCC特征的提取流程1.预加重:语音中有频谱倾斜(SpectralTilt)现象,即低频具有较高能量,因此需要加重高频语音的能量,使高频信息凸显出来,其计算公式如下式3.1所14
【参考文献】:
期刊论文
[1]儿童功能性构音障碍危险因素分析[J]. 钱慧霞,陈卫红,汪晓玲,黄诚茵. 中国妇幼保健. 2017(01)
[2]功能性构音障碍患者舌尖中音异常的语音特点及康复训练[J]. 徐丽娜,李峰,高楠,张艳云,吕自愿. 听力学及言语疾病杂志. 2016(04)
[3]构音障碍评估研究述评[J]. 李欢. 中国特殊教育. 2010(06)
[4]67例功能性构音障碍发病相关因素探讨[J]. 张丽,鲁兰,岳虹霓. 中国实用儿科杂志. 2007(11)
[5]功能性构音障碍儿童的神经心理特征[J]. 宋辉青,赵亚茹,华天懿,赵云静. 中国妇幼保健. 2007(18)
[6]功能性构音障碍儿童构音特点分析及言语矫治[J]. 赵云静,孙洪伟,赵亚茹. 中国康复. 2006(02)
博士论文
[1]基于语音识别的构音及语音障碍自动评估系统研制[D]. 司博宇.华东师范大学 2014
本文编号:3292271
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3292271.html