语音情感识别中的特征提取与识别算法研究

发布时间：2017-09-28 09:36

本文关键词：语音情感识别中的特征提取与识别算法研究

【摘要】：随着电子技术的广泛发展,用户已经不再满足于只使用键盘、鼠标、开关等机械的冷冰冰的交互方式。虽然说最近触摸屏技术得到快速的发展,使人机交互更便捷,操作形式更多样,但是人们普遍希望人机交互过程更人性化、更智能化,人机交互界面更友好、更生动,这样必然需要计算机具有与人相似的思维感知能力。显然,使计算机能够理解人类的情感是完成上述任务非常重要的一步。语音作为人类交流的重要媒介,是人类传递信息的最基本途径;另外,目前针对语音的传感器已经发展得非常成熟,在获取人类语音信号时,几乎不需要当事人的任何配合。所以语音情感识别就显得尤为重要。语音情感识别的目的是使计算机从人类的语音信号中发现人的当前情感状态,让机器能理解人的感性思维,从而使计算机具有更人性化更复杂的功能。语音情感识别是一种典型的模式识别问题,通常包括三个关键的步骤:语音特征提取,维数约减,分类。本文针对这三个步骤都做了一定研究,主要贡献有:(1)本文提出一种基于Hu矩的加权谱特征(HuWSF)。特征提取算法对语音情感识别算法的影响非常大,其中Mel频率倒谱系数(Mel-frequency Cepstral Coefficients,MFCC)是语音情感识别中最常用的特征。但是MFCC没有考虑同一帧Mel滤波结果相邻系数之间的关系以及同一帧Mel滤波结果同一系数相邻帧之间的关系,这样可能会丢失语谱图中较多有用的信息。Hu WSF能够克服MFCC的上述缺点。动机来源于两方面:首先,在不同的语音情感下,说话强度、说话清晰度、基音频率的变化程度、说话速度等都有着非常明显的变化,这些变化会改变语谱图中能量集中到某些频率的程度。而在语谱图的局部区域计算的Hu矩,能够很好的评价能量如何集中到语谱图中的一些频率的程度。其次,语音情感识别很容易受到说话人、说话风格、说话内容的不同的影响。而Hu矩具有平移、尺度、旋转不变形,使得Hu WSF能够很好的减少这些负面影响。通过在柏林语音数据库(Berlin emotional speech database,Emo DB),Surrey视听表情情感数据库(Surrey Audio-Visual Expressed Emotion Database,SAVEE),中科院自动化所语音情感数据库(CASIA)等三个数据库上的实验证明了Hu WSF的有效性。(2)本文提出了一种基于半监督特征选择和说话人归一化的语音情感识别方法。特征选择算法是语音情感识别中最常用的维数约简算法,但是目前用在语音情感识别中的大部分特征选择算法都是基于贪心算法的有监督的特征选择算法,不能够考虑数据的整体结构、数据的流形结构、以及无标签样本提供的信息。为了克服上述缺点,本文提出一种半监督的特征选择算法,该算法能够同时利用上述所有信息。但是因为语音情感数据的流形结构受到多种因素的影响,如情感、说话人、语句的内容等,导致使用数据流形结构的特征选择算法并不能直接用于语音情感识别。所以在使用半监督特征选择算法之前,应该先减少其它因素对语音特征提取结果的影响。说话人归一化算法是常见的减少说话人对语音情感识别影响的方法,但是传统的说话人归一化算法每个测试说话人都需要较多的无标签样本,这在大部分实际应用环境中难以实现。为了克服这个缺点,本文提出一种两阶段的说话人归一化算法。第一阶段使用所有训练样本的均值和方差对语音数据归一化,第二阶段只使用新的测试说话人的均值对语音数据归一化。因为均值在归一化中只用为偏移量,使得归一化的结果受均值的影响相对不敏感,这样就可以使用少量的样本获得较好的说话人归一化效果。在Emo DB、SAVEE、CASIA等三个数据库上的实验结果,证明了上述算法的有效性。(3)本文提出了一种集成Softmax回归模型的语音情感识别(ESSER)方法。目前已经有较多的集成分类器用于语音情感识别,但是这些集成分类器依然面临着较多的问题,如基分类器的多样性不能保证、基分类器的强度不足、维数灾难等。为了克服上述问题,本文提出ESSER识别语音情感。首先注意到一些特征提取算法的原理相差较大、以及单个特征并不能充分描述语音信号,所以使用不同的特征组合生成子空间,可以确保子空间的多样性;同时因为子空间的维度比所有特征连接成的特征维度要低,这样在一定程度上也克服了维数灾难的问题。然后注意到在子空间的多样性得到保证时,使用强的分类器可以提升集成分类器的效果;并且发现在大部分语音情感数据库上,Softmax都有较强的语音情感识别能力;所以使用Softmax作为集成分类器的基分类器。另外因为Softmax的分类结果是测试样本到各个类的概率,所以使用Softmax作为集成分类器的基分类器还可以为基分类器的集成提供更多的信息。在Emo DB、SAVEE、FAC Aibo等三个数据库上的实验结果,证明了该算法的有效性。(4)本文提出了一种基于流形学习和稀疏表示分类的语音情感识别方法。目前已经有一些基于稀疏表示的分类器用于语音情感识别,但是这些方法要么直接将原始数据用为字典,要么针对每个类单独训练字典,从而不能充分利用训练数据的类别标签。为了克服这个缺点,本文提出一种有监督维数约减算法学习字典,这样可以使字典携带较多的分类信息;同时又减小了字典的基的维度,可以大大加快稀疏表示分类的速度。但是因为语音情感特征受到较多因素的影响,如说话人、说话风格以及说话内容等,导致同一情感的样本之间的距离可能较大,使得在优化这些样本之间的距离时,对传统的有监督的维数约减算法的目标函数影响较大,所以传统算法不能直接用来学习字典。为了克服上述缺点,本文提出一种新的有监督维数约减算法,该算法在计算类内矩阵、类间矩阵、以及样本之间的流形结构时均考虑了数据的局部性,避免了优化同一情感样本之间的距离对目标函数造成的较大影响。另外为了使语音数据的情感流形结构更突出,该算法使用自调整点对点之间的距离描述样本之间的关系。最后,为了充分利用有监督维数约减算法学习到的字典的信息,本文改进现有的加权稀疏表示分类算法,对稀疏表示系数加权时使用自调整点对点之间的距离。在Emo DB、SAVEE、CASIA等三个数据上实验证明了这些算法的有效性。
【关键词】：语音情感识别 谱特征 特征选择 Softmax 集成分类器 稀疏表示分类
【学位授予单位】：华南理工大学
【学位级别】：博士
【学位授予年份】：2015
【分类号】：TN912.34
【目录】：

摘要5-8
Abstract8-19
第一章.绪论19-25
1.1.引言19-20
1.2.面临的挑战20-21
1.3.本文的研究内容、目标、及创新点21-23
1.4.本文的内容安排23-25
第二章.语音情感识别技术的综述25-38
2.1.语音情感识别技术的综述25-30
2.1.1 韵律特征25-26
2.1.2 谱特征26-27
2.1.3 其它特征27-30
2.2.语音特征的维数约减算法30-31
2.2.1 降维算法30
2.2.2 特征选择算法30-31
2.3.语音情感的分类模型31-34
2.3.1 层次分类器32
2.3.2 集成分类器32-33
2.3.3 单个分类器33-34
2.4.语音数据库34-37
2.4.1 语音数据库的评价标准35
2.4.2 已知可用的语音情感数据库35-36
2.4.3 本文实验部分使用的语音情感数据库36-37
2.5.本章小结37-38
第三章.基于局部Hu矩的加权谱特征38-61
3.1.引言38-39
3.2.基于局部Hu矩的加权谱特征39-46
3.2.1 Hu矩的背景39
3.2.2 Hu WSF算法39-43
3.2.3 对Hu WSF算法的分析43-46
3.3.与Hu WSF相关的特征46-48
3.3.1 谱特征47
3.3.2 韵律特征47-48
3.4.用于评价Hu WSF的语音情感识别框架48-49
3.4.1 特征统计49
3.4.2 维数约减49
3.4.3 分类49
3.5.实验49-59
3.5.1 语音情感数据库和评价标准49-50
3.5.2 对比的特征50
3.5.3 选择合适的维数约减算法50-51
3.5.4 特征提取方法参数设置51-52
3.5.5 说话人独立的实验结果52-56
3.5.6 说话人依赖的实验结果56-59
3.6.本章小结59-61
第四章.基于半监督特征选择和说话人归一化的语音情感识别61-85
4.1.引言61-62
4.2.理论基础62-65
4.2.1 多类簇特征选择算法(MCFS)62-64
4.2.2 数据内在维度的获取64-65
4.3.半监督多类簇特征选择65-68
4.3.1 半监督特征选择的问题65-66
4.3.2 半监督多类簇特征选择的数据内在维度的获取66-68
4.4.说话人归一化68-70
4.5.使用SSMCFS与说话人归一化的语音情感识别70-71
4.5.1 特征提取70
4.5.2 分类70
4.5.3 使用的语音情感识别框架70-71
4.6.实验71-84
4.6.1 对比的特征选择方法71-72
4.6.2 执行方法和评价标准72-73
4.6.3 说话人独立实验73-81
4.6.4 对比本章的说话人归一化算法与传统的说话人归一化算法81-83
4.6.5 说话人依赖实验83-84
4.7.本章小结84-85
第五章.基于集成Softmax回归模型的语音情感识别85-106
5.1.引言85-86
5.2.基于集成Softmax回归的语音情感识别(ESSER)86-94
5.2.1 特征提取87-88
5.2.2 特征统计88-89
5.2.3 特征选择89-90
5.2.4 集成分类器90-94
5.3.在不平衡数据中使用ESSER94-96
5.4.实验96-105
5.4.1 对比的方法96
5.4.2 执行结果的评价准则96-97
5.4.3 在Emo DB上的实验结果97-100
5.4.4 在SAVEE数据库上的实验结果100-102
5.4.5 在FAC Aibo数据库上的实验结果102-105
5.5.本章小结105-106
第六章.基于流形学习和稀疏表示分类的语音情感识别106-126
6.1.引言106-108
6.2.理论基础108-110
6.2.1 有监督维数约减算法的一般形式108
6.2.2 增强半监督局部Fisher判别分析(ESLF)108-109
6.2.3 稀疏表示分类(SRC)109
6.2.4 加权稀疏表示分类(WSRC)109-110
6.3.基于局部重构和局部Fisher判别的有监督维数约减(LRLFDSDR)110-112
6.3.1 LRLFDSDR的目标方程110-111
6.3.2 目标方程的优化111-112
6.3.3 LRLFDSDR的算法流程112
6.4.自适应加权稀疏表示分类(AWSRC)112-114
6.5.语音情感识别框架114-115
6.5.1 特征提取114-115
6.5.2 特征统计115
6.6.实验115-124
6.6.1 对比的算法与实验设置115-116
6.6.2 说话人独立实验116-120
6.6.3 说话人依赖实验120-124
6.7.本章小结124-126
结论126-130
参考文献130-145
攻读博士学位期间取得的研究成果145-147
致谢147-149
附件149

【参考文献】

中国期刊全文数据库前1条

1 韦佳;彭宏;;基于局部与全局保持的半监督维数约减方法[J];软件学报;2008年11期

，

本文编号：935112

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/xxkjbs/935112.html

上一篇：含碳固体燃料混合成浆特性及配煤成浆浓度神经网络预测
下一篇：基于冲击声的声源物理属性辨识及声线索提取

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|