任务驱动的可视媒体文字描述技术
发布时间:2024-01-20 10:04
由于人们收集的个人数据呈指数速度增长,图像和视频的数据量也随之增加。相比于文本的方式,现在人们广泛采用文本附带图像或视频的方式记录生活。但是,由于图像或视频数据量较大,在各种社交软件上上传图像与视频时,人们无法快速准确地寻找到感兴趣的图像或视频片段。针对上述需求,本文提出了一种基于视频描述模型的跨模态视频日记检索方法,通过分析视频内容自动生成自然语言描述,实现了视频与文本的跨模态转换,帮助人们在庞大的视频数据库中检索到需要的视频片段。此外,针对图像分辨率对图像描述造成的影响,本文提出了一种改进的基于级联残差学习卷积神经网络的图像超分辨重建算法,将超分辨图像应用到了图像描述中,提高了图像描述的准确率。1)本文提出了一种文本日记与视频日记的检索算法,该方法由三个过程组成。视频的镜头分割。基于小波变换的视频镜头分割方法能够自适应地分割视频,能较好的检测镜头边界。因此本文采用基于小波变换的视频镜头分割方法,首先对视频帧之间的亮度差异度进行小波多分辨分解,然后去噪得到模极大值点,最后跟踪模极大值点找到镜头边界,从而将视频分割成具有不同场景的短视频片段。视频描述。本文采用了标题引导的视觉显著性的视...
【文章页数】:49 页
【学位级别】:硕士
本文编号:3880645
【文章页数】:49 页
【学位级别】:硕士
本文编号:3880645
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3880645.html
最近更新
教材专著