当前位置:主页 > 科技论文 > 自动化论文 >

融合运动学和声学特征的语音情感识别研究

发布时间:2020-10-22 21:48
   随着人工智能技术的迅猛发展,人们对人机交互技术提出了更高的要求,希望具有识别人类情感能力的智能产品能够为人机交互用户提供流畅的人机接口。因此,语音情感识别成为了人工智能领域的一个研究热点。为了使计算机可以清晰地感知人类情感并与人类顺畅地交流,必须充分利用语音、面部表情和发音器官运动数据等信号分析和研究语音的情感。另外,情感语音中的发音器官运动学研究成果可以应用于言语康复训练和计算机辅助语言学习中,研究运动学特征向声学特征的转换有助于开展情感语音的产生、识别和合成等方面的研究。综上所述,研究融合运动学和声学特征的语音情感识别对深入研究情感语音的发音机理和人机交互技术具有重大的实际意义和应用价值。本文主要围绕融合运动学和声学特征的语音情感识别系统展开研究,具体内容包括融合运动学和声学特征的双模态情感语音数据集的设计、情感语音中运动学和声学特征的提取及分析、运动学向声学特征的转换系统研究、特征融合及情感识别研究等。首先,本文设计了融合运动学和声学特征的表演型汉语普通话双模态情感语音数据集;其次,对情感语音作运动学特征和声学特征的提取及分析,并对二者的相关性进行研究;再次,提出了基于PSO-LSSVM的运动学-声学特征转换算法,实现了由运动学特征向第二共振峰及12维MFCC特征转换的运算;最后,提出了基于DBM的混合多模态融合方法,并将融合特征应用于情感识别研究中。主要研究内容及创新成果如下所述:(1)设计了包含声学数据和运动学数据的汉语普通话双模态情感语音数据集。本文对融合运动学数据和声学数据的已有常见语音库从建立方法和数据内容的角度进行了对比分析,采用表演法录制了包含四种情感(生气、高兴、伤心和中性)的汉语普通话情感语音集。进而,利用主观和客观评价方法相结合的综合模糊评价模型对声学数据进行评价并筛选,同时根据RMSE对运动学数据进行筛选,最终得到有效的,符合人们日常交流习惯的,包含单元音、双音节词和句子的汉语普通话双模态情感语音数据集,应用于后续的研究中。(2)突破传统的单音节限制,研究了基于运动学-声学特征的双音节词级和句子级情感语音。本文结合声调语言特点,分别以双音节词和包含完整语义的句子为研究对象,分析双模模态情感语音中的运动学特征和声学特征受情感变化的影响,并对运动学特征和声学特征之间的相关性进行分析。在对运动学数据进行特征提取前,对运动学数据进行基于普氏变换的说话人归一,归一后的数据可以消除不同说话人的生理区别。经过研究发现,音节越多情感对运动学特征的影响越显著,比声学特征受情感的影响更显著。同时,随着音节数量的增多,发现舌根和左右嘴角的运动速度受情感影响更加显著。句子级和双音节词级情感语音的运动学-声学特征分析可以证明多音节比单音节或者元音拥有更丰富的情感信息,音节数量越多,情感对运动学特征的影响就越显著。同时,研究表明舌和唇的运动速度与声学的共振峰、基频和振幅等特征间存在强烈的相关性,而且情感的表现越强烈,运动学和声学特征之间的相关性就越强。(3)基于PSO-LSSVM算法提出了双模态情感语音中的运动学-声学特征转换模型。结合运动学-声学特征分析结果,分别应用GMM模型和PSO-LSSVM算法实现了由运动学特征分别向第二共振峰和12维MFCC的转换,并对转换模型进行了理论分析和公式推导。将转换生成的特征与实际的声学特征进行对比,实验结果证明转换精度较高。(4)提出了基于DBM的混合多模态融合方法,并将其应用于情感识别中。本文研究了语音情感识别中的混合融合方法,并对其进行理论分析和公式推导,利用随机森林和支持向量机实现了情感的识别。实验结果表明,混合融合后的识别结果明显优于单一模态情感识别的结果,也优于对声学特征和运动学特征作特征级融合后的识别结果;同时,对K-近邻、支持向量机和随机森林分类器的识别结果进行对比发现,采用随机森林作为识别器的识别效果要优于支持向量机和K-近邻的识别效果。
【学位单位】:太原理工大学
【学位级别】:博士
【学位年份】:2019
【中图分类】:TN912.34;TP18
【部分图文】:

贴图,传感器,发音器官


数据的采集原理技术是一种通过构建环绕在发音人头部的磁场,结合黏贴在发音器官记录发音器官运动轨迹的数据采集技术。应用该技术的典型仪器来自德国 Carstens 公司,这类型设备的工作原理是通过线圈等磁场产生设周围建立磁场,同时传感器跟随发音器官在该磁场中作切割运动以产。传感器产生的电流大小与传感器的运动距离成比例,可以利用这种器在磁场空间中每一时刻的坐标值[75]。备所用的传感器必须小巧、易于黏贴到发音器官表面,比如德国 Ca器的接触面积大约为 3 平方毫米,厚度约为 2.5 毫米,如图 2-6(a)所将这些传感器黏贴到发音器官上,如图 2-6(b)所示。

仪器,发音器官,录音系统,自动同步


控投影仪控制器投影机麦克风图 3-1AG501 录音系统硬件连接图rdware Connection Diagram of AG501 Recordirstens公司推出的一款专门用于采集发为1250Hz的运动学数据采集通道和1据由黏贴在发音器官各部位的传感器声学数据可以实现自动同步。AG501

示意图,咬合面,传感器,示意图


该仪器包含24路采样率为1250Hz的运动学数据采集通道和1路采样率为48KHz的声学数据采集通道。运动学数据由黏贴在发音器官各部位的传感器采集,声学数据由专用麦克风采集,运动学数据和声学数据可以实现自动同步。AG501的外形如图3-3所示。图 3-2AG501 仪器图Figure 3-2 Machine of AG501
【相似文献】

相关期刊论文 前10条

1 王延花;;临夏“花儿”的声学特征分析[J];甘肃教育;2017年05期

2 А.П.Молотков;陈尚森;;拉伸过程中化学纤维的声学特征变化[J];国外纺织技术(化纤、染整、环境保护分册);1987年01期

3 韩明明;巴图格日勒;格根塔娜;德格吉呼;;青海土语乌图美仁话边音/l/的声学特征研究[J];西北民族大学学报(自然科学版);2016年04期

4 孟晓红;张梦翰;;发声态45种声学特征的综合效应分析[J];南开语言学刊;2017年02期

5 邹晨晓;;几种基础情绪下汉语语音的声学特征分析[J];青年作家;2014年18期

6 江海燕;刘岩;卢莉;;维吾尔语疑问语调的声学特征[J];清华大学学报(自然科学版);2008年S1期

7 郑日新;耳鸣声学特征与中医证型关系的初步研究[J];安徽中医学院学报;2005年05期

8 何其超,房斌,龙建忠,许天宏;草原鼠兔呜叫声的观察和声学特征分析[J];声学学报;1996年S1期

9 王永华,甘雨,丁水耿;耳鸣的虚实辨证及声学特征分析[J];中国中西医结合耳鼻咽喉科杂志;1996年03期

10 邓见光;潘晓衡;林玉志;;基于声学特征的乐器识别综述[J];东莞理工学院学报;2012年03期


相关博士学位论文 前10条

1 任国凤;融合运动学和声学特征的语音情感识别研究[D];太原理工大学;2019年

2 刘正晨;结合发音特征与深度学习的语音生成方法研究[D];中国科学技术大学;2018年

3 张盛;汉语语音情绪识别[D];中国科学技术大学;2007年

4 孟凡博;连续语流中焦点重音的分析与生成[D];清华大学;2013年

5 谢尔曼;2D-Haar声学特征超向量生成及大规模说话人识别技术研究[D];北京理工大学;2015年

6 孟和吉雅;蒙古语标准音水平测试系统研究[D];内蒙古大学;2010年

7 孙雪;国际音标符号系统之元音声学特征分析[D];南开大学;2009年

8 卢红云;韵母构音运动声学特征分析及治疗策略的制定[D];华东师范大学;2011年

9 刘佳;语音情感识别的研究与应用[D];浙江大学;2009年

10 蒋兵;语种识别深度学习方法研究[D];中国科学技术大学;2015年


相关硕士学位论文 前10条

1 周子松;基于支持向量数据描述的风电机组叶片健康声学诊断方法研究[D];北京邮电大学;2019年

2 张世伦;基于人群声学特征的商业步行街声景预测研究[D];哈尔滨工业大学;2017年

3 邸然;保定方言音系实验研究[D];南京师范大学;2018年

4 原梦;基于声学特征和发音运动特征的构音障碍可懂度评估研究[D];天津大学;2018年

5 赵娟;风机叶片健康监测声学特征提取方法研究[D];北京邮电大学;2018年

6 王蓉蓉;基于非参贝叶斯方法的声学单元建模技术及其应用研究[D];战略支援部队信息工程大学;2018年

7 刘晨;藏传佛教乐器的历史传承与声学特征研究[D];西藏大学;2016年

8 林玉志;基于声学特征的乐器识别研究[D];华南理工大学;2012年

9 丁迎春;健听与听障儿童语调声学特征的比较研究[D];华东师范大学;2011年

10 郑鑫;基于深度神经网络的声学特征学习及音素识别的研究[D];清华大学;2014年



本文编号:2852136

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2852136.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f968c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com