基于声纹识别的研讨型智慧教室构建
发布时间:2021-01-05 02:14
将语音处理技术引入到智慧教室的建设中,通过悬置麦克风实现零干预的课堂数据采集,设计声纹识别和语音识别算法实现说话人身份识别和课堂研讨过程的记录,并实时反馈给课堂中的学生和教师。其中针对语音数据训练样本少、背景噪声复杂的问题,基于特征补偿设计本征音自适应算法,然后通过最大似然算法自适应地求出说话人因子,最后通过最小均方误差算法计算判决结果。
【文章来源】:实验技术与管理. 2018年07期 北大核心
【文章页数】:6 页
【部分图文】:
图1研讨型智慧教室系统组成
于特征补偿和本征音自适应的声纹识别算法(eigenvoiceadaptionalgorithmbasedonfeaturecompensa-tion,EV-FM),利用少量的未知说话人语料(自适应的语料数据),在最大似然准则或最大后验概率准则下生成包含说话人最多信息的说话人因子,并能够将说话人无关(SI)模型调整到说话人相关(SD)模型,实现在少量训练语料数据的情况下获得较好的识别效果,同时也能够在模型域消除环境失配带来的干扰。主要流程如图2所示:首先对原始语音数据进行特征提取,然后基于倒谱均值减(cepstrummeansubtraction,CMS)算法进行特征补偿[14],并设计本征音自适应算法,最后利用最小均方误差计算说话人语句的相似度,得到判决结果。3.1说话人特征补偿特征提取是声纹识别的第一步,本文采用Mel频率倒谱系数(Melfrequencycepstrumcoefficient,MF-CC)[15]作为语音特征参数,整个过程包括预加重、分帧、端点检测、加窗、傅里叶变换以及三角带通滤波等步骤,由式(1)计算得到频谱特征。B(f)=1125ln(1+f/700)(1)CMS算法是基于声学的声道模型假设,将发声行为抽象为激励信号通过声道模型与声道函数进行卷积的非线性过程。分为三个部分,如图3所示:第一个部分中的DFT*[·]为将卷积信号转化为加性信号;由第二个部分对s^(n)进行线性处理得到y^(n);第三个
从最大到最小的特征值序列,然后从中选取最大的k个特征值,这些特征值就是本征音(eigenvoice,EV)[16]。在有本征音生成的特征空间中利用最大似然准则估计每一个说话人的坐标系数,并由于本征音基矢量具有说话人模型的最大方差,能够反映说话人模型参数的先验概率,进而实现说话人自适应。本征音算法不需要估计很多的特征参数,特别适合语音少的情况下的快速说话人识别[17]。本征音自适应流程图如图4:图4本征音自适应流程图假设说话人无关的第c个高斯均值向量为μc,协方差为∑c,说话人S相关的第c个高斯均值向量为μSc。区分函数等于0说明声门特征属于中心区间,定义第s个说话人相关说话人的高斯均值向量为:μ(s)=[μT1(s),]μT2(s),…,μTC(s)(6)上式的维数为D*C维,说话人向量可以定义为M={μ(s),s=1,2,…S},假设所有的μs落在同一个子空间中,对M进行主成分分析(principalcomponentanalysis,PCA)算法运算找到S个基向量,记为e(1…k…s),其中e(k)就是第k个本征音。对一个说话人人相关向量μ(s′),其可以由下式表示:μ(s′)=μ-+x1(s′)e(1)+x2(s′)e(2)+…+xK(s′)e(K)(7)其中μ-为训练说话人的向量的均值,x(s′)为第K个本征音对应的坐
本文编号:2957813
【文章来源】:实验技术与管理. 2018年07期 北大核心
【文章页数】:6 页
【部分图文】:
图1研讨型智慧教室系统组成
于特征补偿和本征音自适应的声纹识别算法(eigenvoiceadaptionalgorithmbasedonfeaturecompensa-tion,EV-FM),利用少量的未知说话人语料(自适应的语料数据),在最大似然准则或最大后验概率准则下生成包含说话人最多信息的说话人因子,并能够将说话人无关(SI)模型调整到说话人相关(SD)模型,实现在少量训练语料数据的情况下获得较好的识别效果,同时也能够在模型域消除环境失配带来的干扰。主要流程如图2所示:首先对原始语音数据进行特征提取,然后基于倒谱均值减(cepstrummeansubtraction,CMS)算法进行特征补偿[14],并设计本征音自适应算法,最后利用最小均方误差计算说话人语句的相似度,得到判决结果。3.1说话人特征补偿特征提取是声纹识别的第一步,本文采用Mel频率倒谱系数(Melfrequencycepstrumcoefficient,MF-CC)[15]作为语音特征参数,整个过程包括预加重、分帧、端点检测、加窗、傅里叶变换以及三角带通滤波等步骤,由式(1)计算得到频谱特征。B(f)=1125ln(1+f/700)(1)CMS算法是基于声学的声道模型假设,将发声行为抽象为激励信号通过声道模型与声道函数进行卷积的非线性过程。分为三个部分,如图3所示:第一个部分中的DFT*[·]为将卷积信号转化为加性信号;由第二个部分对s^(n)进行线性处理得到y^(n);第三个
从最大到最小的特征值序列,然后从中选取最大的k个特征值,这些特征值就是本征音(eigenvoice,EV)[16]。在有本征音生成的特征空间中利用最大似然准则估计每一个说话人的坐标系数,并由于本征音基矢量具有说话人模型的最大方差,能够反映说话人模型参数的先验概率,进而实现说话人自适应。本征音算法不需要估计很多的特征参数,特别适合语音少的情况下的快速说话人识别[17]。本征音自适应流程图如图4:图4本征音自适应流程图假设说话人无关的第c个高斯均值向量为μc,协方差为∑c,说话人S相关的第c个高斯均值向量为μSc。区分函数等于0说明声门特征属于中心区间,定义第s个说话人相关说话人的高斯均值向量为:μ(s)=[μT1(s),]μT2(s),…,μTC(s)(6)上式的维数为D*C维,说话人向量可以定义为M={μ(s),s=1,2,…S},假设所有的μs落在同一个子空间中,对M进行主成分分析(principalcomponentanalysis,PCA)算法运算找到S个基向量,记为e(1…k…s),其中e(k)就是第k个本征音。对一个说话人人相关向量μ(s′),其可以由下式表示:μ(s′)=μ-+x1(s′)e(1)+x2(s′)e(2)+…+xK(s′)e(K)(7)其中μ-为训练说话人的向量的均值,x(s′)为第K个本征音对应的坐
本文编号:2957813
本文链接:https://www.wllwen.com/jiaoyulunwen/jiaoyujiaoxuefangfalunwen/2957813.html