基于多头注意力的视频标注方法研究

发布时间：2024-01-27 06:54

　　视频标注涉及到计算机视觉和自然语言处理两个领域,是一个非常有挑战性的任务。同时,视频标注也有非常广泛的实际应用前景。现阶段,完全用人工的方式进行视频标注无疑可以获得非常精确的结果,但是随着人力成本的迅速增长,社会对自动视频标注方法的需求正变得越来越紧迫。在近年来出现的视频标注模型中,许多都采用了自然语言处理领域广泛使用的编解码框架,编码端使用视频特征序列生成视频中间向量表示,然后在解码端解码中间向量生成文字序列描述,以序列到序列的方式处理输入输出。编解码框架的使用在很大程度上促进了视频标注研究的发展,但是现行的视频标注模型仍然有一些不足的地方:首先,许多标注模型缺乏聚焦关键信息的能力;其次,标注模型训练阶段和测试阶段输入数据不同,导致模型存在解码误差传递问题;最后,标注模型在训练过程中优化指标是单词级别的交叉熵损失,和元组级别的测试指标不一致。为了解决上述问题,本文提出了一个基于多头注意力的视频标注模型。标注模型在传统的编解码网络上引入多头注意力机制,并改进模型训练方法与模型优化指标,主要研究工作如下:1.引入多头注意力机制使视频标注模型获得焦距关键信息的能力。多头注意力机制可以使得模...

【文章页数】：65 页

【学位级别】：硕士

图2-3视频标注模型总体结构

图3-1视频标注总体框架

图3-2算法标注效果

图4-1增强学习框架

本文编号：3886514

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3886514.html

上一篇：初等数学问题中实体关系自动抽取算法研究及应用
下一篇：动态场景下自适应补偿的视觉里程计关键技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|