基于物体识别地理配准的跨视频行人检测定位技术研究
发布时间:2021-09-06 05:01
跨视频行人检测是计算机视觉领域的重要分支之一,该技术在监控视频系统日益普及的今天拥有巨大的发展前景和市场价值。现有系统主要通过提取目标特征参数,采用视频检索的方法,实现跨视频目标追踪,因此国内外相关学者的研究重点主要通过寻找优化的特征参数和检索方法达到更好的追踪效果。由于该方法并未解决对行人地理位置信息描述的问题,故无法获取目标行人的运动轨迹。本文主要对基于物体识别的地理配准技术以及跨视频行人追踪相关技术进行研究,通过应用示范,建立行人轨迹仿真系统,对行人实现地理信息定位。针对监控视频系统缺少地理位置信息的问题,本文提出一种基于物体识别的视频地理配准方法,获取视频监控区域的地理位置信息。针对实时视频流多视频行人追踪方法运算量大、复杂度高、应用能力弱的缺点,采用基于运动物体检测优化的快速人头识别的方法,提高行人定位速度,并获取行人地理位置信息。在多视频联动的监控场景下,行人地理位置信息作为先验数据,可应用于跨视频行人追踪。本文主要工作包括以下几点:(1)提出一种基于物体识别和空间地物拓扑匹配的视频地理配准方法:采用多种网络公开训练集结合3D模型图片的方式优化训练集,结合地物空间数据库,计...
【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
YOLO物体识别的方法
第3章基于物体识别和拓扑匹配的视频配准方法37的方法将监控视频中具有直观地面区域提取出来,根据实际情况的需要剪裁成多个图像再进行透视变换纠正。图像透视变换流程如下:原始图像剪裁后的倾斜图像1剪裁后的倾斜图像1透视变换纠正基于地理标定拼接具有地理信息的透视变换图像剪裁剪裁纠正后的图像1纠正后的图像1图3.16透视变换流程图Figure3.16Perspectivetransformationflowchart将原始图像的平面部分裁剪得到多张图片,为了更好的可视化效果,需根据透视矩阵对这些图像进行透视变换[40],使图像中每个像素点能更好的与世界坐标系对应。由于这些图像具有地理位置关系,因此基于地理标定,可拼接成透视变换后地面区域的图像。投影的目标平面为地面平面,与WGS84坐标系相匹配,因此本文研究的场景属于透视投影类型。监控视频通过透视投影,在3D场景中映射在平面地面上,从人的感官角度来讲,透视投影符合人的直观视觉感受,同时也契合本文的研究场景。图3.17透视投影模型Figure3.17Perspectiveprojectionmodel
第4章跨视频行人检测定位技术434.2.2基于场景分离优化的快速行人检测本节开头部分介绍了人头检测器在快速检测行人领域的优势,不同于行人检测模型对行人整体构建特征进行检测,FCHD[32]是一种完全卷积的头部检测模型,优势在于标清视频流下运算速度可达45pfs。FCHD的网络结构区别于Faster-RCNN模型的两级流水线,只保留一个执行头部检测的单级流水线。FCHD网络的前半部分使用训练好的VGG16作为特征提取层,使用VGG16conv5-3层的结果,输出的维度是(30,40,512)经过一次卷积,然后是一层卷积核为(3,3,512,512)的卷积层,得到的结果经过Relu激活函数。然后分别运用1*1卷积进入Regressionhead(人头位置回归)和Classificationhead(人头判定),最后将得到的两步中的矩阵做检测框偏移以及非极大值抑制(NMS),得到预测的头部框位置。其网络结构如图4.3所示。图4.3FCHD网络结构Figure4.3FCHDNetworkStructure用于训练模型的损失函数是多任务损失函数,和RPN训练定义的函数类似:({}{})=1∑(,)+1∑(,)(4.1)其中是对所有选定锚点的索引,根据网络结果,范围为32个选定锚点。是对描述头部的预测概率,是Ground-truth标签,为1或者0,是预测边界框的参数化坐标,例如缩放或者移动,是Ground-truth参数化移动坐标.,分别为分类和回归的样本数。对一张4k图像以30*40区域锚定的运行速度比640*480图像慢28倍。如果
【参考文献】:
期刊论文
[1]融合背景差分法和帧间差分法的运动目标检测[J]. 陈媛,胡娜,余秋月. 现代计算机. 2019(34)
[2]基于视觉物体识别的抗差岭估计定位算法[J]. 徐昊玮,廉保旺,邹晓军,岳哲,吴鹏. 电子与信息学报. 2018(10)
[3]基于拓扑结构的地图匹配算法研究[J]. 卢文涛,周银东,梅顺良,尚铭. 测控技术. 2010(06)
[4]透视和透视投影变换——论图形变换和投影的若干问题之三[J]. 何援军. 计算机辅助设计与图形学学报. 2005(04)
博士论文
[1]海量多媒体数据的地理信息标注技术及其应用[D]. 刘衡.中国科学技术大学 2014
[2]面向监控视频的行人重识别技术研究[D]. 王亦民.武汉大学 2014
[3]基于BIM的建筑工程信息集成与管理研究[D]. 张洋.清华大学 2009
硕士论文
[1]基于马尔科夫的张量链模型及其在用户行为轨迹的预测[D]. 李锦涛.华中科技大学 2019
[2]智能监控中的行人长时跟踪方法研究[D]. 黄烨霖.华南理工大学 2018
[3]基于人脸识别技术和边缘计算技术的智能系统研究[D]. 蔡成飞.浙江大学 2018
[4]基于度量学习和稀疏表示的行人重识别技术研究[D]. 丘宇辉.华南理工大学 2015
本文编号:3386799
【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
YOLO物体识别的方法
第3章基于物体识别和拓扑匹配的视频配准方法37的方法将监控视频中具有直观地面区域提取出来,根据实际情况的需要剪裁成多个图像再进行透视变换纠正。图像透视变换流程如下:原始图像剪裁后的倾斜图像1剪裁后的倾斜图像1透视变换纠正基于地理标定拼接具有地理信息的透视变换图像剪裁剪裁纠正后的图像1纠正后的图像1图3.16透视变换流程图Figure3.16Perspectivetransformationflowchart将原始图像的平面部分裁剪得到多张图片,为了更好的可视化效果,需根据透视矩阵对这些图像进行透视变换[40],使图像中每个像素点能更好的与世界坐标系对应。由于这些图像具有地理位置关系,因此基于地理标定,可拼接成透视变换后地面区域的图像。投影的目标平面为地面平面,与WGS84坐标系相匹配,因此本文研究的场景属于透视投影类型。监控视频通过透视投影,在3D场景中映射在平面地面上,从人的感官角度来讲,透视投影符合人的直观视觉感受,同时也契合本文的研究场景。图3.17透视投影模型Figure3.17Perspectiveprojectionmodel
第4章跨视频行人检测定位技术434.2.2基于场景分离优化的快速行人检测本节开头部分介绍了人头检测器在快速检测行人领域的优势,不同于行人检测模型对行人整体构建特征进行检测,FCHD[32]是一种完全卷积的头部检测模型,优势在于标清视频流下运算速度可达45pfs。FCHD的网络结构区别于Faster-RCNN模型的两级流水线,只保留一个执行头部检测的单级流水线。FCHD网络的前半部分使用训练好的VGG16作为特征提取层,使用VGG16conv5-3层的结果,输出的维度是(30,40,512)经过一次卷积,然后是一层卷积核为(3,3,512,512)的卷积层,得到的结果经过Relu激活函数。然后分别运用1*1卷积进入Regressionhead(人头位置回归)和Classificationhead(人头判定),最后将得到的两步中的矩阵做检测框偏移以及非极大值抑制(NMS),得到预测的头部框位置。其网络结构如图4.3所示。图4.3FCHD网络结构Figure4.3FCHDNetworkStructure用于训练模型的损失函数是多任务损失函数,和RPN训练定义的函数类似:({}{})=1∑(,)+1∑(,)(4.1)其中是对所有选定锚点的索引,根据网络结果,范围为32个选定锚点。是对描述头部的预测概率,是Ground-truth标签,为1或者0,是预测边界框的参数化坐标,例如缩放或者移动,是Ground-truth参数化移动坐标.,分别为分类和回归的样本数。对一张4k图像以30*40区域锚定的运行速度比640*480图像慢28倍。如果
【参考文献】:
期刊论文
[1]融合背景差分法和帧间差分法的运动目标检测[J]. 陈媛,胡娜,余秋月. 现代计算机. 2019(34)
[2]基于视觉物体识别的抗差岭估计定位算法[J]. 徐昊玮,廉保旺,邹晓军,岳哲,吴鹏. 电子与信息学报. 2018(10)
[3]基于拓扑结构的地图匹配算法研究[J]. 卢文涛,周银东,梅顺良,尚铭. 测控技术. 2010(06)
[4]透视和透视投影变换——论图形变换和投影的若干问题之三[J]. 何援军. 计算机辅助设计与图形学学报. 2005(04)
博士论文
[1]海量多媒体数据的地理信息标注技术及其应用[D]. 刘衡.中国科学技术大学 2014
[2]面向监控视频的行人重识别技术研究[D]. 王亦民.武汉大学 2014
[3]基于BIM的建筑工程信息集成与管理研究[D]. 张洋.清华大学 2009
硕士论文
[1]基于马尔科夫的张量链模型及其在用户行为轨迹的预测[D]. 李锦涛.华中科技大学 2019
[2]智能监控中的行人长时跟踪方法研究[D]. 黄烨霖.华南理工大学 2018
[3]基于人脸识别技术和边缘计算技术的智能系统研究[D]. 蔡成飞.浙江大学 2018
[4]基于度量学习和稀疏表示的行人重识别技术研究[D]. 丘宇辉.华南理工大学 2015
本文编号:3386799
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3386799.html
最近更新
教材专著