基于注意力机制的视频摘要和行人属性识别算法研究
发布时间:2022-02-08 15:57
日常生活中,人类的大脑能够利用有限的资源,快速地筛选出最具价值的信息,这种处理信息的手段被称为注意力机制。最近,注意力机制在自然语言处理、语音识别、图像识别等深度学习领域得到广泛的应用。向深度模型中引入注意力机制,能够更加有效地利用模型的输入输出信息,从而提升模型的性能。本文首次将注意力机制引入视频摘要领域,证明了注意力机制在视频摘要任务中的可行性与有效性;进一步研究基于注意力机制的行人属性识别方法,研究能够比较充分利用输入输出信息的行人属性识别算法。一方面,随着网络视频数量的日益增长,如何有效的存储和处理视频数据成为亟待解决的问题。视频摘要技术从原始的视频中提取富含信息的视频片段或视频帧集,能够快速总结视频重要信息,从而缓解日益爆炸的视频数量带来的问题。本文针对现有的视频摘要算法忽略视频帧之间的语义联系的问题,提出了一种基于注意力机制的视频摘要算法,使用卷积神经网络编码原始视频,使用基于注意力机制的循环神经网络进行解码,充分探究视频帧之间的相互联系,从而生成富含信息的视频摘要。在人工标注的SumMe和TVSUM两个主流数据集上,验证了所提模型的有效性。另一方面,广布城市的监控视频网络...
【文章来源】:天津大学天津市211工程院校985工程院校教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
人工神经网络中的神经元结构图
天津大学硕士学位论文10f()为非线性的激活函数,例如sigmoid和relu等函数,使神经元的计算从线性转换成非线性,拓展了神经元的表达能力。图2-1人工神经网络中的神经元结构图图2-2三层人工神经网络结构图多个神经元相互连接组成基本的神经网络结构,又称前馈网络结构,一个简单的三层前馈网络结构如图2-2所示,阴影圆圈代表隐藏层结构,上层神经元与下层神经元全部连接,构成一个具有极强表示能力的网络。从图中可以直观看出,单纯使用全部连接的方式,一旦隐藏层神经元数量增加或隐藏层数增加时,计算量的上升是计算机无法承受的。卷积和池化的提出缓解了这个问题。首先本文介绍图像中的卷积操作。图像中的卷积可看作是一个作用于矩阵的滑动窗口函数,滑动窗口称为卷积核,过滤器或特征检测器。例如,本文可以使用3×3卷积核,将其元素值与原始矩阵相乘,然后将它们相加。为了获得完整的卷积,本文通过在整个矩阵上滑动滤波器来为每个元素执行此操作。如图2-3所示,左边的矩阵可以看作是一张黑白的原图,右边则为卷积操作的结果:图2-3图像中的卷积操作
天津大学硕士学位论文10f()为非线性的激活函数,例如sigmoid和relu等函数,使神经元的计算从线性转换成非线性,拓展了神经元的表达能力。图2-1人工神经网络中的神经元结构图图2-2三层人工神经网络结构图多个神经元相互连接组成基本的神经网络结构,又称前馈网络结构,一个简单的三层前馈网络结构如图2-2所示,阴影圆圈代表隐藏层结构,上层神经元与下层神经元全部连接,构成一个具有极强表示能力的网络。从图中可以直观看出,单纯使用全部连接的方式,一旦隐藏层神经元数量增加或隐藏层数增加时,计算量的上升是计算机无法承受的。卷积和池化的提出缓解了这个问题。首先本文介绍图像中的卷积操作。图像中的卷积可看作是一个作用于矩阵的滑动窗口函数,滑动窗口称为卷积核,过滤器或特征检测器。例如,本文可以使用3×3卷积核,将其元素值与原始矩阵相乘,然后将它们相加。为了获得完整的卷积,本文通过在整个矩阵上滑动滤波器来为每个元素执行此操作。如图2-3所示,左边的矩阵可以看作是一张黑白的原图,右边则为卷积操作的结果:图2-3图像中的卷积操作
【参考文献】:
期刊论文
[1]最大边界重要和覆盖的视频摘要方法[J]. 冀中,马亚茹,何宇清. 计算机科学与探索. 2018(08)
[2]基于超图排序算法的视频摘要[J]. 冀中,樊帅飞. 电子学报. 2017(05)
[3]多视频摘要技术:方法、应用及挑战[J]. 冀中,苏育挺,庞彦伟. 计算机工程与应用. 2012(27)
本文编号:3615342
【文章来源】:天津大学天津市211工程院校985工程院校教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
人工神经网络中的神经元结构图
天津大学硕士学位论文10f()为非线性的激活函数,例如sigmoid和relu等函数,使神经元的计算从线性转换成非线性,拓展了神经元的表达能力。图2-1人工神经网络中的神经元结构图图2-2三层人工神经网络结构图多个神经元相互连接组成基本的神经网络结构,又称前馈网络结构,一个简单的三层前馈网络结构如图2-2所示,阴影圆圈代表隐藏层结构,上层神经元与下层神经元全部连接,构成一个具有极强表示能力的网络。从图中可以直观看出,单纯使用全部连接的方式,一旦隐藏层神经元数量增加或隐藏层数增加时,计算量的上升是计算机无法承受的。卷积和池化的提出缓解了这个问题。首先本文介绍图像中的卷积操作。图像中的卷积可看作是一个作用于矩阵的滑动窗口函数,滑动窗口称为卷积核,过滤器或特征检测器。例如,本文可以使用3×3卷积核,将其元素值与原始矩阵相乘,然后将它们相加。为了获得完整的卷积,本文通过在整个矩阵上滑动滤波器来为每个元素执行此操作。如图2-3所示,左边的矩阵可以看作是一张黑白的原图,右边则为卷积操作的结果:图2-3图像中的卷积操作
天津大学硕士学位论文10f()为非线性的激活函数,例如sigmoid和relu等函数,使神经元的计算从线性转换成非线性,拓展了神经元的表达能力。图2-1人工神经网络中的神经元结构图图2-2三层人工神经网络结构图多个神经元相互连接组成基本的神经网络结构,又称前馈网络结构,一个简单的三层前馈网络结构如图2-2所示,阴影圆圈代表隐藏层结构,上层神经元与下层神经元全部连接,构成一个具有极强表示能力的网络。从图中可以直观看出,单纯使用全部连接的方式,一旦隐藏层神经元数量增加或隐藏层数增加时,计算量的上升是计算机无法承受的。卷积和池化的提出缓解了这个问题。首先本文介绍图像中的卷积操作。图像中的卷积可看作是一个作用于矩阵的滑动窗口函数,滑动窗口称为卷积核,过滤器或特征检测器。例如,本文可以使用3×3卷积核,将其元素值与原始矩阵相乘,然后将它们相加。为了获得完整的卷积,本文通过在整个矩阵上滑动滤波器来为每个元素执行此操作。如图2-3所示,左边的矩阵可以看作是一张黑白的原图,右边则为卷积操作的结果:图2-3图像中的卷积操作
【参考文献】:
期刊论文
[1]最大边界重要和覆盖的视频摘要方法[J]. 冀中,马亚茹,何宇清. 计算机科学与探索. 2018(08)
[2]基于超图排序算法的视频摘要[J]. 冀中,樊帅飞. 电子学报. 2017(05)
[3]多视频摘要技术:方法、应用及挑战[J]. 冀中,苏育挺,庞彦伟. 计算机工程与应用. 2012(27)
本文编号:3615342
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3615342.html