面向情感语音转换的韵律转换方法
本文选题:混合高斯模型 + 离散余弦变换 ; 参考:《声学学报》2014年04期
【摘要】:面向情感语音转换,该文提出了一种韵律转换方法。该方法包含基频转换和时长转换两个部分,前者选择离散余弦变换(DCT)参数化基频,根据基频的层次结构特点,将基频分解为短语层和音节层两个层次,使用基于混合高斯模型(GMM)的转换方法对两个层次分别进行转换;后者使用基于分类回归树(CART)的方法以声韵母为基本单位对时长进行转换。一个包含三种基本情感的语料库用作训练和测试,客观评测以及主观评测实验结果显示该方法可有效进行情感韵律转换,其中悲伤情感在主观实验中达到了接近100%的正确率。
[Abstract]:In this paper, a prosodic conversion method is proposed for affective speech conversion. The method consists of two parts: fundamental frequency conversion and time-length conversion. The former selects DCT (discrete cosine transform) parameterized fundamental frequency, which is decomposed into phrase layer and syllable layer according to the characteristics of fundamental frequency hierarchy. The conversion method based on mixed Gao Si model (GMM) is used to transform the two levels, and the latter uses the method based on the classification regression tree to convert the duration of time with the rhyme and initials as the basic unit. A corpus of three basic emotions is used for training and testing. The experimental results of objective evaluation and subjective evaluation show that the proposed method is effective in the conversion of emotional prosody. The correct rate of sadness emotion is nearly 100% in the subjective experiment.
【作者单位】: 中国科学技术大学自动化系;语音及语言信息处理国家工程实验室;中国科学院合肥智能机械研究所;
【基金】:安徽省科技攻关计划语音专项(11010202192) 国家自然科学基金(61303150) 安徽省自主创新专项资金智能语音技术研发和产业化专项(13Z02008) 中国博士后科学基金(2012M521248)资助
【分类号】:TN912.3
【参考文献】
相关期刊论文 前1条
1 苏庄銮;汪增福;;基于统计方法的普通话情感语调模型[J];自动化学报;2007年07期
【共引文献】
相关会议论文 前1条
1 毛峡;魏鹏飞;薛雨丽;;基于改进声调核模型的汉语普通话声调识别[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
相关博士学位论文 前2条
1 黄云峰;车间调度和谐范式与多智能体系统情智集成的研究[D];重庆大学;2010年
2 荣蓉;汉语普通话声调的听感格局[D];南开大学;2013年
相关硕士学位论文 前5条
1 张莹;普通话的态度语音韵律研究[D];南京师范大学;2011年
2 刘艳;普通话的情感语音韵律分析[D];南京师范大学;2011年
3 王一淇;“八度标调、唱调法”应用于对英语母语者的声调教学探索[D];辽宁大学;2013年
4 谢小静;7至12岁汉语儿童焦点语调格局声学研究[D];湖南大学;2013年
5 王红丽;基于FDA的语音基频建模的研究[D];西北师范大学;2013年
【二级参考文献】
相关期刊论文 前2条
1 赵力,王治平,卢韦,邹采荣,吴镇扬;全局和时序结构特征并用的语音信号情感特征识别方法[J];自动化学报;2004年03期
2 吴宗济;赵元任先生在汉语声调研究上的贡献[J];清华大学学报(哲学社会科学版);1996年03期
【相似文献】
相关期刊论文 前10条
1 戴佳骏;周军;;基于运动矢量场的混合高斯建模的背景分离方法[J];微计算机信息;2006年22期
2 卞金洪;王吉林;;利用性别判识技术的说话人识别系统的研究[J];信息化研究;2011年01期
3 戴红霞;赵力;;考虑性别差异的与文本无关说话人识别系统的实现[J];电声技术;2006年03期
4 谢凯添;景占荣;;基于无线传感器网络的多目标分类[J];微计算机应用;2008年06期
5 徐璐;胡福乔;;基于混合高斯模型的摄像机移动检测[J];计算机应用与软件;2010年06期
6 山拜·达拉拜;曹红丽;尤努斯·艾沙;;基于遗传算法的K-means初始化EM算法及聚类应用[J];现代电子技术;2010年15期
7 包永强;赵力;邹采荣;;说话人识别模型失配下的似然得分补偿变换[J];电路与系统学报;2006年04期
8 谢建平;;基于MVQM说话人识别系统的DSP实现[J];微电子学与计算机;2006年06期
9 曹红丽;山拜·达拉拜;;混合EM算法研究及聚类应用[J];通信技术;2010年11期
10 龙兴明,周静;基于混合高斯模型的图象去噪方法研究[J];计算机工程与应用;2005年21期
相关会议论文 前6条
1 戴红霞;赵力;;文本无关说话人识别系统的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年
2 李旭健;房胜;梁永全;;视频监控中运动物体提取系统的设计和实现[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
3 王平波;蔡志明;;有色非高斯数据的混合高斯自回归模型建模研究[A];中国声学学会2006年全国声学学术会议论文集[C];2006年
4 倪素萍;张建平;颜永红;吕士楠;;语音音色变换的现有技术分析[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
5 李桂春;郑能恒;李霞;;基于模糊隶属值加权的MFCC特征提取算法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
6 吴佩珊;杨鉴;;云南民族语口音汉语普通话语音识别中的声学建模[A];第二十七届中国控制会议论文集[C];2008年
相关博士学位论文 前4条
1 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年
2 黄青华;基于源信号模型的盲分离技术研究及应用[D];上海交通大学;2007年
3 李邵梅;文本无关短语音说话人识别技术研究[D];解放军信息工程大学;2011年
4 李小军;独立分量分析及其在阵列信号处理中的应用[D];西安电子科技大学;2004年
相关硕士学位论文 前10条
1 曹红丽;混合高斯模型的混合EM算法研究及聚类应用[D];新疆大学;2010年
2 程换丽;视频监控中遗留物体的检测研究[D];河北科技大学;2014年
3 王吉林;利用矢量量化(VQ)和混合高斯模型(GMM)的说话人识别的研究[D];东南大学;2004年
4 孙迎肖;运动目标检测在银行视频集中监控系统中的应用[D];河北师范大学;2014年
5 李圆;基于GMM说话人分类的说话人识别系统研究[D];华北电力大学(河北);2008年
6 吴德辉;基于因子分析的鲁棒性话者确认方法研究[D];中国科学技术大学;2009年
7 史昕亮;运动对象分割及基于对象的MPEG-4编码[D];浙江大学;2007年
8 魏利利;音频信号分类算法研究[D];大连理工大学;2009年
9 施爱春;分布式声源定位与跟踪算法研究[D];复旦大学;2011年
10 郭亦鹏;基于视频监控的大空间室内火灾烟雾识别方法[D];华中科技大学;2011年
,本文编号:1882069
本文链接:https://www.wllwen.com/kejilunwen/wltx/1882069.html