弹幕评论在综艺视频高光片段检测中的应用
发布时间:2024-05-14 00:13
网络视听服务的发展丰富了人们的娱乐生活,也让弹幕这一评论形式逐渐流行起来。从另一个角度看,用户发送的弹幕是对视频片段的评论,与观看视频过程中感兴趣的片段内容息息相关,因此,弹幕可以看作是多个注释者对视频内容的弱注释。互联网上沉积的大量弹幕评论蕴含着丰富的视频语义信息,将弹幕数据利用起来,可以帮助视频语义理解等任务。本文的主要研究目标有两个:第一,研究弹幕数据在综艺节目高光片段检测任务上的应用,第二,研究弹幕特征结合其他特征多模态检测综艺节目高光片段的方法。针对第一个目标,本文提出使用一个带有延迟的时间滑窗提取视频帧时间戳若干长度内的原始弹幕文本的词向量,并取平均作为视频帧弹幕文本特征,同时构建了弹幕平均长度,弹幕密度,特殊颜色弹幕数量,特殊字号弹幕数量,点赞数,点踩数,回复数等7维弹幕结构特征,结合弹幕文本特征和弹幕结构特征使用边界敏感网络对综艺节目高光片段进行检测。针对第二个目标,本文提出了堆叠边界敏感网络。通过对边界敏感网络进行改造,对时序评估模块进行堆叠,将不同特征分别训练时序卷积网络模型输出的动作、开始、结束概率序列加权平均得到多模态概率序列,再从概率序列提取极值点组合为候选提...
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
本文编号:3972911
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
图2.1带有一个隐藏层的多层感知机,隐层包含5个神经元
深度学习是一类神经网络模型,一般情况下应用在有监督学习领域。神经网络以单个神经元以基本单位构成,每个个神经元对多个输入作线性变换并输出计算结果,计算每一个神经元的输出,就可以得到神经网络的最终输出。在单层神经网络的输入层和输出层之间引入一到多个隐层,可以得到一个简单的多层感知机模....
图2.2卷积的计算原理
卷积层是卷积神经网络的核心结构,以在图像领域使用较多的二维卷积层为例,输入一个单通道图片(二维数组),卷积层使用一个或多个卷积核通过卷积计算输出相应的二维数组。图2.2展示了输入一个3*3尺寸的二维数组,一个2*2的卷积核在该数组上滑动并对窗口中的值和卷积核的权重进行点乘运算,其....
图2.3最大池化层示意
最大池化层。池化实际上是一种降采样的操作,卷积神经网络常常在卷积层中周期性地插入池化层,作用是缩减数据规模,减少模型的参数量,从而增强模型整体的泛化能力。最常用的池化层是最大池化,如图2.3所示,最大池化层将输入的数组分割成若干部分,对每个区域内的子数组取最大值完成降采样,相较于....
图2.4VGG16的网络结构
图2.4展示了一个VGG16网络的基本结构。网络输入3通道的原始图片,经过一系列的卷积和池化操作后得到图像的特征向量,再用一个全连接网络和softmax函数将向量映射到(0,1)区间中,输出图像类别的概率预测值。第三节时序卷积神经网络
本文编号:3972911
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3972911.html