单目图像/视频深度信息估计技术研究
发布时间:2021-07-06 11:18
近年来,随着人工智能技术的迅猛发展,自动驾驶、3D显示以及机器人逐渐走入了人们的视野并开始影响着人们的生活。在上述相关领域中,如何获取准确的场景深度信息成为了研究的重点。当前针对单目图像/视频深度估计任务的主要方法是通过深度卷积神经网络(DCNNs)来学习彩色图-深度图数据库中存在的图像域信息到深度域信息的映射关系。但是,当前该领域的主流算法存在着如下三个问题:(1)在单目视频深度估计任务中,将面向图像的卷积神经网络模型运用到视频任务时,预测得到的深度图序列存在严重的时空不一致问题,影响3D视频的合成效果。(2)在单目图像深度估计任务中,当前的模型无法通过一套模型参数适应室内室外不同的场景,限制了模型的实用性与鲁棒性。(3)当前的单目深度估计网络模型具有较大的存储消耗以及计算消耗,限制了模型在移动端设备上的使用。本文针对上述三个问题分别提出了有效的解决方案。针对单目视频深度估计任务,本文提出了一种循环条件随机场网络模型。该模型将时空条件随机场与常规的卷积神经网络进行结合,能够有效地构建深度序列中存在的时空依赖关系,保证了预测结果的准确性与时空一致性。针对多场景类别单目深度估计任务,本文...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:96 页
【学位级别】:硕士
【部分图文】:
全连接条件随机场
图 2-4 循环神经网络示意图-4 所示,箭头的左边为一个标准的循环神经网络的循环单元该单元依次处理每一个时间节点的数据。因此,序列数据的边的形式。第 t 时刻模型的输入,ts 表示第 t 时刻模型内部的记忆状态,出结果。当面对一个新的数据t1x+,模型首先依据之前的状新模型内部的状态:( )t 1t ts f U x W s+= + 。然后基于输出结果:( )1 1maxt to soft Vs+ += 。过程中,有两点是值得注意的:(1)当处理序列数据时,每数是共用的;(2)当处理序列数据时,过往的有效信息会被
按照光流中图像灰度短时不变性搭建基本光流方程。设 L ( x , y , t )代表在t时刻像素点( x, y )的照度,设 u ( x , y )和 v ( x , y )分别表示光流在该像素点水平与竖直的位移分量。当t + dt时,像素点( x , y )移动到( x + u , y + v)位置。根据运动前后像素点照度相同的假设,得到前后两帧存在的关系如下: L ( x , y , t ) = L ( x + u , y + v , t + dt)。通过对该式子进行求解,即可得到t时刻图像上各个像素点的运动情况。本文采取文献[43]中基于深度学习的光流算法,来估算场景中每一个像素点的运动轨迹。在图 2-5 中,依次是当前帧的彩色图、后一帧的彩色图以及当前帧的光流运动图。从图中可以发现,光流图很好地反映了当前帧图像中各个像素点的运动情况。此外,光流图中包含的各个像素点水平与竖直位移可以用来计算前后两帧上各个像素点的坐标对应关系。基于该坐标对应关系,可以自然地建立前后两帧的时域连接,这对于增强预测结果的时域连续性至关重要。
本文编号:3268140
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:96 页
【学位级别】:硕士
【部分图文】:
全连接条件随机场
图 2-4 循环神经网络示意图-4 所示,箭头的左边为一个标准的循环神经网络的循环单元该单元依次处理每一个时间节点的数据。因此,序列数据的边的形式。第 t 时刻模型的输入,ts 表示第 t 时刻模型内部的记忆状态,出结果。当面对一个新的数据t1x+,模型首先依据之前的状新模型内部的状态:( )t 1t ts f U x W s+= + 。然后基于输出结果:( )1 1maxt to soft Vs+ += 。过程中,有两点是值得注意的:(1)当处理序列数据时,每数是共用的;(2)当处理序列数据时,过往的有效信息会被
按照光流中图像灰度短时不变性搭建基本光流方程。设 L ( x , y , t )代表在t时刻像素点( x, y )的照度,设 u ( x , y )和 v ( x , y )分别表示光流在该像素点水平与竖直的位移分量。当t + dt时,像素点( x , y )移动到( x + u , y + v)位置。根据运动前后像素点照度相同的假设,得到前后两帧存在的关系如下: L ( x , y , t ) = L ( x + u , y + v , t + dt)。通过对该式子进行求解,即可得到t时刻图像上各个像素点的运动情况。本文采取文献[43]中基于深度学习的光流算法,来估算场景中每一个像素点的运动轨迹。在图 2-5 中,依次是当前帧的彩色图、后一帧的彩色图以及当前帧的光流运动图。从图中可以发现,光流图很好地反映了当前帧图像中各个像素点的运动情况。此外,光流图中包含的各个像素点水平与竖直位移可以用来计算前后两帧上各个像素点的坐标对应关系。基于该坐标对应关系,可以自然地建立前后两帧的时域连接,这对于增强预测结果的时域连续性至关重要。
本文编号:3268140
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3268140.html