一种基于视频预测的红外行人目标跟踪方法
发布时间:2022-01-14 20:47
红外视频与普通彩色视频相比易受周围环境的影响,在红外行人跟踪中行人目标外观轮廓和灰度分布常有较大幅度变化,导致跟踪困难.为解决此问题,本文提出了一种VPSiamRPN(Video Prediction with Siamese Region Proposal Network)红外行人目标跟踪系统.在SiamRPN(Siamese Region Proposal Network)网络的基础上,针对目标形变、目标遮挡和背景杂波等严重影响红外跟踪效果的因素进行研究,设计将PredNet (Deep Predictive Coding Networks for Video Prediction and Unsupervised)网络的图像预测功能结合应用到SiamRPN网络上,以提高跟踪模板与被检测目标的相似度,增强目标跟踪中的模型匹配能力,从而提高对红外行人目标的跟踪能力.通过改变网络层数、预测所用的目标图像及图像帧数、网络的跟踪策略,对网络进行优化,设计了9组对比试验,在PTB-TIR数据集上,与SiamRPN网络客观定量对比,通过跟踪的成功率和重叠率在10种属性上对网络进行评估.实验结果...
【文章来源】:哈尔滨工业大学学报. 2020,52(10)北大核心EICSCD
【文章页数】:9 页
【部分图文】:
SiamRPN网络结构[9]
4):预测层,对R单元卷积+Relu得到.图2为PredNet网络结构,激活函数采用Relu,Al与 A ^ l 之差小于零的部分置零,通过Al与相互作差,拼接,再输入Relu层.El传给Al+1,作为下一层的输入.R l t 单元接受的输入是前一刻本层误差E l t ,本层状态R l t-1 ,本时刻高层预测特征R l+1 t ,根据这三者进行特征级的预测.预测的特征在 A ^ l 单元卷积,得到特征图像,与Al相比较.总体loss是各层、各时刻预测误差的加权和.各层误差权重λl,各时刻误差权重λt由实验确定.网络状态更新存在水平(时间)方向和竖直(各层)方向两方向的更新.竖直方向先更新,先自下而上前向传播计算得各层误差El,再自上而下计算RNN单元的状态Rl.t时刻网络更新好后,进行t+1时刻的更新.因此对于各t的网络,输入是前一刻RNN状态Rt-1和本时刻目标输出图像A0.
预测的网络跟踪过程为:PredNet网络通过存储在序列X中的8帧图像预测出当前帧的目标图像,输出的图像经重塑后大小为127×127×3作为模版帧.模板帧和被检测帧经过相同的卷积结构分别得到6×6×256,22×22×256的特征,模版帧所产生的特征通过3×3的卷积核分别产生了4×4×(2k×256)和4×4×(4k×256)的特征,k值为RPN网络所需的矩形框数.通过得到的两组特征输入RPN网络得到目标位置信息.根据目标位置信息对被检测帧进行裁剪,将裁剪后得到的目标图像重塑为128×128×3存入序列X中替换掉第1帧并将序列X按图像存入的顺序重新排序.图4 VPSiamRPN网络结构
【参考文献】:
期刊论文
[1]目标跟踪算法综述[J]. 孟琭,杨旭. 自动化学报. 2019(07)
[2]红外图像中的行人检测[J]. 郭永彩,胡瑞光,高潮. 重庆大学学报. 2009(09)
[3]影响红外热像仪测量精度的因素分析[J]. 高小明. 华电技术. 2008(11)
本文编号:3589188
【文章来源】:哈尔滨工业大学学报. 2020,52(10)北大核心EICSCD
【文章页数】:9 页
【部分图文】:
SiamRPN网络结构[9]
4):预测层,对R单元卷积+Relu得到.图2为PredNet网络结构,激活函数采用Relu,Al与 A ^ l 之差小于零的部分置零,通过Al与相互作差,拼接,再输入Relu层.El传给Al+1,作为下一层的输入.R l t 单元接受的输入是前一刻本层误差E l t ,本层状态R l t-1 ,本时刻高层预测特征R l+1 t ,根据这三者进行特征级的预测.预测的特征在 A ^ l 单元卷积,得到特征图像,与Al相比较.总体loss是各层、各时刻预测误差的加权和.各层误差权重λl,各时刻误差权重λt由实验确定.网络状态更新存在水平(时间)方向和竖直(各层)方向两方向的更新.竖直方向先更新,先自下而上前向传播计算得各层误差El,再自上而下计算RNN单元的状态Rl.t时刻网络更新好后,进行t+1时刻的更新.因此对于各t的网络,输入是前一刻RNN状态Rt-1和本时刻目标输出图像A0.
预测的网络跟踪过程为:PredNet网络通过存储在序列X中的8帧图像预测出当前帧的目标图像,输出的图像经重塑后大小为127×127×3作为模版帧.模板帧和被检测帧经过相同的卷积结构分别得到6×6×256,22×22×256的特征,模版帧所产生的特征通过3×3的卷积核分别产生了4×4×(2k×256)和4×4×(4k×256)的特征,k值为RPN网络所需的矩形框数.通过得到的两组特征输入RPN网络得到目标位置信息.根据目标位置信息对被检测帧进行裁剪,将裁剪后得到的目标图像重塑为128×128×3存入序列X中替换掉第1帧并将序列X按图像存入的顺序重新排序.图4 VPSiamRPN网络结构
【参考文献】:
期刊论文
[1]目标跟踪算法综述[J]. 孟琭,杨旭. 自动化学报. 2019(07)
[2]红外图像中的行人检测[J]. 郭永彩,胡瑞光,高潮. 重庆大学学报. 2009(09)
[3]影响红外热像仪测量精度的因素分析[J]. 高小明. 华电技术. 2008(11)
本文编号:3589188
本文链接:https://www.wllwen.com/kejilunwen/dianzigongchenglunwen/3589188.html