面向跨模态检索的音频数据库内容匹配方法研究
发布时间:2021-09-05 10:44
跨模态检索旨在通过以某一模态的数据为查询词,使人们能够得到与之相关的其他不同模态数据的检索结果的新型检索方法,这已成为多媒体和信息检索领域中一个有趣的研究问题。但是,目前大多数的研究成果集中于文本到图像、文本到视频以及歌词到音频等跨模态相关任务上,而关于如何为特定的视频通过跨模态检索得到合适的音乐这一跨模态的相关研究却很有限。此外,大多现有的关于视频和音频跨模态的研究依赖于元数据(例如关键字,标签或描述)。本文介绍了一种基于音频和视频这两种模态数据内容的跨模态检索的方法,该方法以新型的双流处理网络为框架,并通过神经网络学习两模态数据在公共子空间的特征表达,以计算音频和视频数据之间的相似度。本文所提出的方法的创新点主要在以下三个方面:1)在原有的提取各模态特征的模型基础上引入注意力机制,以此得到了视频和音频的特征选择模型,并筛选出相应的特征表达。2)使用了样本挖掘机制,剔除了无效样本,使得数据的训练更加高效。3)从计算模态间相似性和保持模态内结构不变两方面出发,利用了相应的损失函数进行模型的训练。且所提出的模型在VEGAS数据集和自建数据集上都取得了较高的准确度。
【文章来源】:信号处理. 2020,36(06)北大核心CSCD
【文章页数】:11 页
【部分图文】:
模型的整体框架
图1 模型的整体框架第一层网络的激活函数为输入的特征进行“打分”,输出的分值可以视作该部分数据的特征集中度,因此也可以称之为打分函数,具体的计算公式如下:
通过上述的特征选择模型提取出音乐和视频各自的特征数据后,为了能够对两种不同模态的数据进行对比和学习,故而设计了嵌入网络,其目的是将音乐和视频的特征向量通过神经网络计算并映射进同一个公共特征空间,也可称之为嵌入空间。图4 视频特征选择网络
【参考文献】:
期刊论文
[1]用于跨库语音情感识别的DBN特征融合方法[J]. 张昕然,巨晓正,宋鹏,查诚,赵力. 信号处理. 2017(05)
本文编号:3385205
【文章来源】:信号处理. 2020,36(06)北大核心CSCD
【文章页数】:11 页
【部分图文】:
模型的整体框架
图1 模型的整体框架第一层网络的激活函数为输入的特征进行“打分”,输出的分值可以视作该部分数据的特征集中度,因此也可以称之为打分函数,具体的计算公式如下:
通过上述的特征选择模型提取出音乐和视频各自的特征数据后,为了能够对两种不同模态的数据进行对比和学习,故而设计了嵌入网络,其目的是将音乐和视频的特征向量通过神经网络计算并映射进同一个公共特征空间,也可称之为嵌入空间。图4 视频特征选择网络
【参考文献】:
期刊论文
[1]用于跨库语音情感识别的DBN特征融合方法[J]. 张昕然,巨晓正,宋鹏,查诚,赵力. 信号处理. 2017(05)
本文编号:3385205
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3385205.html