基于语音与人脸参数化表示的跨模态稠密深度网络学习方法
发布时间:2021-10-27 09:07
为了提高跨模态人脸表示与合成的性能,针对语音与人脸图像2种模态数据,提出一种基于人脸参数化表示与稠密深度网络相结合的面部生成方法。针对输入语音模态,通过对信号进行频谱变换,将一维时域信号转换到二维频率域,可提取频域上稳健的特征描述;针对输出图像模态,利用主动外观模型对不同面部区域独立建模以降低区域间的相关性,并提取紧凑的人脸参数化特征;为了获得有效的跨模态学习性能,提出采用稠密连接的深度卷积神经网络学习语音、图像2种模态的回归预测,并通过预测的人脸参数进行面部重构,所采用的深度网络模型可以加强特征传播与特征复用,有利于增强面部细节的合成。在2组音视频数据集上验证了提出方法的有效性。
【文章来源】:重庆邮电大学学报(自然科学版). 2020,32(05)北大核心CSCD
【文章页数】:7 页
【部分图文】:
模型框架图
由于语音信号具有短时稳定性,所以对语音信号进行采样时,选取语音帧长为20~30 ms。同时,为了减少帧之间的变化,确保采样时相邻帧之间有重叠交叉区域,从而获取到平稳的语音信号。3)帧加窗。
2个数据集(2种不同语言)在训练过程中的模型收敛效果如图5。图5中横坐标表示模型学习的迭代次数,纵坐标表示迭代过程中的损失函数值。红色、蓝色曲线分别表示SAVEE,CCTV数据集的跨模态学习收敛效果。可以看出,随着迭代次数的增加,损失函数的值不断递减,大约迭代至250 000次时,损失值接近最小值。总体上,在2组音视频同步的多模态数据上,本文采用的深度网络均可以收敛至比较理想的状态。2.3 与其它深度模型的对比
本文编号:3461292
【文章来源】:重庆邮电大学学报(自然科学版). 2020,32(05)北大核心CSCD
【文章页数】:7 页
【部分图文】:
模型框架图
由于语音信号具有短时稳定性,所以对语音信号进行采样时,选取语音帧长为20~30 ms。同时,为了减少帧之间的变化,确保采样时相邻帧之间有重叠交叉区域,从而获取到平稳的语音信号。3)帧加窗。
2个数据集(2种不同语言)在训练过程中的模型收敛效果如图5。图5中横坐标表示模型学习的迭代次数,纵坐标表示迭代过程中的损失函数值。红色、蓝色曲线分别表示SAVEE,CCTV数据集的跨模态学习收敛效果。可以看出,随着迭代次数的增加,损失函数的值不断递减,大约迭代至250 000次时,损失值接近最小值。总体上,在2组音视频同步的多模态数据上,本文采用的深度网络均可以收敛至比较理想的状态。2.3 与其它深度模型的对比
本文编号:3461292
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3461292.html