基于神经网络的语音情感识别方法研究
发布时间:2021-02-07 15:24
随着计算机行业的不断发展,人工智能走进人们的生活,通过语音实现人机交互正逐渐成为主流的人机交互方式。语音情感识别能够让机器感知人类的情绪,听懂人的情感,在心理健康状态监控、教育辅助、个性化内容推荐、客服质量监控方面都具有广泛应用前景。但目前语音情感识别系统的识别率较低,不足以大规模商用,因此,提高情感识别准确度是一个亟待解决的难题。语音情感识别的系统框架主要包括两部分:语音情感特征提取和情感分类。本文在语音情感特征提取和情感识别网络模型方面做了以下工作:1.提出一种基于语谱图的RGB统计谱图的新特征。在原有语谱图的基础上,首先运用图像处理的方法,对语谱图提取RGB分量,生成新的三种RGB谱图;其次,利用统计学函数对RGB分量图谱进行扩维,生成新的统计图谱;最后,在拥有4层卷积的CNN网络上进行特征有效性验证。仿真实验结果显示,均值谱图识别准确率为57.2%,方差谱图识别准确率为68.1%,最大值谱图识别准确率为54.2%。实验表明本文改进的RGB统计图谱可以实现对语音情感的分类,新特征有效。2.针对语音信号的时序性特点,使用有记忆特性的长短时记忆神经网络进行语音情感分类。针对不同语音特...
【文章来源】:辽宁科技大学辽宁省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
语音情感识别系统框图
2.语音情感识别基础12图2.2唤醒度与效价的情感空间模型Fig.2.2EmotionalspacemodelofArousal-Valence2.3语音情感语料库现阶段进行的语音情感研究,大都是在专门的语音情感数据库上进行的,一方面是因为这种专业的语料库采集到底语料资源比较全面,在语音信号的处理上,也做得比较好,对于情感的标签备注,相对比较统一,对情感的测试验证体系相对完备,认可度高,用自己构建的情感数据库,情感认可度可能不足,再有就是对于前期的数据采集,实验设备也没有专业的实验室完备,所以综合几方面的原因,大多数的情感识别研究,所使用的数据还都是正规的情感语料库数据,很少有自己构建的数据库。这些专业的情感语料库,在演绎情感的方法上,一般可以分为3类,第一种是模拟情感,通过前期的情绪酝酿,已到达对情感的充分表达,这种是有针对性的自主引导的;第二种是被引发情感,通过将一些带有特定情感的故事,或是看一些带有浓重感情色彩的影片,激发说话者情感;第三种是自发式情感,不带前两种的引导色彩,全凭演绎者自发展现各种感情,相对的这种语料库较少。现在的多数语料库大都采用表演的方式,以确保感情的充沛。表2.2列举了4个常用的情感数据库,通过对比可以看出,现有的数据库大都为表演性情感表达,并且数据库规模差别也比较大。所以在研究中数据库的选取对实验结果影响不可忽视。
辽宁科技大学硕士学位论文173.语音信号的预处理语音信号的预处理一般分为3个步骤:第一步,预加重;第二步,分帧加窗;第三步,端点检测。3.1语音信号语处理3.1.1预加重预加重,是语音信号预处理的第一步,之所以在最开始进行预加重处理,主要是因为,声音都是由声带振动发出的,声音经过声带后,还要经过口腔,在这个过程中,由于口唇辐射对语音信号存在的影响,使得声音信号在高频部分对这种影响表现得非常明显,具体表现为出现了高频跌落现象,预加重就是为了对这个问题进行处理。它通过使用数字滤波器,升高语音信号高频部分,有效缓解高频部分语音成分过小的现象。语音信号的预加重一般通过一阶FIR高通数字滤波器来实现,该滤波器的传递函数是为:1z1)(zH(3.1)式中,α为预加重系数,0.9<α<1.0。高通数字滤波器的幅频特性和相频特性如下图3.1所示。图3.1数字滤波器的幅频特性与相频特性Fig.3.1Amplitude-frequencycharacteristicsandphase-frequencycharacteristicsofdigitalfilters设n时刻的语音采样值为x(n),经过预加重处理后的结果为y()=()(1),这里=0.98。
【参考文献】:
期刊论文
[1]基于改进BP-Adaboost和HMM混合模型的方言情感识别[J]. 冀常鹏,程琳,李锋. 成都信息工程大学学报. 2019(05)
[2]利用语音与文本特征融合改善语音情感识别[J]. 冯亚琴,沈凌洁,胡婷婷,王蔚. 数据采集与处理. 2019(04)
[3]基于语谱图提取深度空间注意特征的语音情感识别算法[J]. 王金华,应娜,朱辰都,刘兆森,蔡哲栋. 电信科学. 2019(07)
[4]用于跨库语音情感识别的DBN特征融合方法[J]. 张昕然,巨晓正,宋鹏,查诚,赵力. 信号处理. 2017(05)
[5]基于语谱图和卷积神经网络的语音情感识别[J]. 田熙燕,徐君鹏,杜留锋. 河南科技学院学报(自然科学版). 2017(02)
[6]面向非平衡文本情感分类的TSF特征选择方法[J]. 王杰,李德玉,王素格. 计算机科学. 2016(10)
[7]基于卷积神经网络的语音情感识别方法[J]. 邵兵,杜鹏飞. 科技创新导报. 2016(06)
[8]基于稀疏特征迁移的语音情感识别[J]. 宋鹏,金赟,查诚,赵力. 数据采集与处理. 2016(02)
[9]基于模糊K近邻的语音情感识别[J]. 纪正飚,王吉林,赵力. 微电子学与计算机. 2015(03)
[10]基于多模态信息融合的语音意图理解方法[J]. 郑彬彬,贾珈,蔡莲红. 中国科技论文在线. 2011(07)
博士论文
[1]基于特征学习的语音情感识别算法研究[D]. 查诚.东南大学 2017
[2]基于听觉仿生的目标声音识别系统研究[D]. 张文娟.中国科学院研究生院(长春光学精密机械与物理研究所) 2012
[3]语音情感识别的关键技术研究[D]. 尤鸣宇.浙江大学 2007
[4]基于语音信号的情感识别研究[D]. 金学成.中国科学技术大学 2007
硕士论文
[1]基于深度学习的表情和姿态双模态情感识别[D]. 郭迪.南京邮电大学 2019
[2]语音情感识别中语谱图纹理特征提取算法研究[D]. 刘泳海.合肥工业大学 2018
本文编号:3022425
【文章来源】:辽宁科技大学辽宁省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
语音情感识别系统框图
2.语音情感识别基础12图2.2唤醒度与效价的情感空间模型Fig.2.2EmotionalspacemodelofArousal-Valence2.3语音情感语料库现阶段进行的语音情感研究,大都是在专门的语音情感数据库上进行的,一方面是因为这种专业的语料库采集到底语料资源比较全面,在语音信号的处理上,也做得比较好,对于情感的标签备注,相对比较统一,对情感的测试验证体系相对完备,认可度高,用自己构建的情感数据库,情感认可度可能不足,再有就是对于前期的数据采集,实验设备也没有专业的实验室完备,所以综合几方面的原因,大多数的情感识别研究,所使用的数据还都是正规的情感语料库数据,很少有自己构建的数据库。这些专业的情感语料库,在演绎情感的方法上,一般可以分为3类,第一种是模拟情感,通过前期的情绪酝酿,已到达对情感的充分表达,这种是有针对性的自主引导的;第二种是被引发情感,通过将一些带有特定情感的故事,或是看一些带有浓重感情色彩的影片,激发说话者情感;第三种是自发式情感,不带前两种的引导色彩,全凭演绎者自发展现各种感情,相对的这种语料库较少。现在的多数语料库大都采用表演的方式,以确保感情的充沛。表2.2列举了4个常用的情感数据库,通过对比可以看出,现有的数据库大都为表演性情感表达,并且数据库规模差别也比较大。所以在研究中数据库的选取对实验结果影响不可忽视。
辽宁科技大学硕士学位论文173.语音信号的预处理语音信号的预处理一般分为3个步骤:第一步,预加重;第二步,分帧加窗;第三步,端点检测。3.1语音信号语处理3.1.1预加重预加重,是语音信号预处理的第一步,之所以在最开始进行预加重处理,主要是因为,声音都是由声带振动发出的,声音经过声带后,还要经过口腔,在这个过程中,由于口唇辐射对语音信号存在的影响,使得声音信号在高频部分对这种影响表现得非常明显,具体表现为出现了高频跌落现象,预加重就是为了对这个问题进行处理。它通过使用数字滤波器,升高语音信号高频部分,有效缓解高频部分语音成分过小的现象。语音信号的预加重一般通过一阶FIR高通数字滤波器来实现,该滤波器的传递函数是为:1z1)(zH(3.1)式中,α为预加重系数,0.9<α<1.0。高通数字滤波器的幅频特性和相频特性如下图3.1所示。图3.1数字滤波器的幅频特性与相频特性Fig.3.1Amplitude-frequencycharacteristicsandphase-frequencycharacteristicsofdigitalfilters设n时刻的语音采样值为x(n),经过预加重处理后的结果为y()=()(1),这里=0.98。
【参考文献】:
期刊论文
[1]基于改进BP-Adaboost和HMM混合模型的方言情感识别[J]. 冀常鹏,程琳,李锋. 成都信息工程大学学报. 2019(05)
[2]利用语音与文本特征融合改善语音情感识别[J]. 冯亚琴,沈凌洁,胡婷婷,王蔚. 数据采集与处理. 2019(04)
[3]基于语谱图提取深度空间注意特征的语音情感识别算法[J]. 王金华,应娜,朱辰都,刘兆森,蔡哲栋. 电信科学. 2019(07)
[4]用于跨库语音情感识别的DBN特征融合方法[J]. 张昕然,巨晓正,宋鹏,查诚,赵力. 信号处理. 2017(05)
[5]基于语谱图和卷积神经网络的语音情感识别[J]. 田熙燕,徐君鹏,杜留锋. 河南科技学院学报(自然科学版). 2017(02)
[6]面向非平衡文本情感分类的TSF特征选择方法[J]. 王杰,李德玉,王素格. 计算机科学. 2016(10)
[7]基于卷积神经网络的语音情感识别方法[J]. 邵兵,杜鹏飞. 科技创新导报. 2016(06)
[8]基于稀疏特征迁移的语音情感识别[J]. 宋鹏,金赟,查诚,赵力. 数据采集与处理. 2016(02)
[9]基于模糊K近邻的语音情感识别[J]. 纪正飚,王吉林,赵力. 微电子学与计算机. 2015(03)
[10]基于多模态信息融合的语音意图理解方法[J]. 郑彬彬,贾珈,蔡莲红. 中国科技论文在线. 2011(07)
博士论文
[1]基于特征学习的语音情感识别算法研究[D]. 查诚.东南大学 2017
[2]基于听觉仿生的目标声音识别系统研究[D]. 张文娟.中国科学院研究生院(长春光学精密机械与物理研究所) 2012
[3]语音情感识别的关键技术研究[D]. 尤鸣宇.浙江大学 2007
[4]基于语音信号的情感识别研究[D]. 金学成.中国科学技术大学 2007
硕士论文
[1]基于深度学习的表情和姿态双模态情感识别[D]. 郭迪.南京邮电大学 2019
[2]语音情感识别中语谱图纹理特征提取算法研究[D]. 刘泳海.合肥工业大学 2018
本文编号:3022425
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3022425.html