视觉场景理解与交互关键技术研究

发布时间:2021-08-12 07:27
  随着多媒体技术地不断发展,人们对场景理解和场景虚拟后交互的需求日益增加。目前,视觉场景理解与交互技术已广泛应用于艺术设计、智能机器人、工业制造和虚拟现实等诸多领域。然而,现有技术框架的高效性、准确性和可扩展性难尽如人意,仍然有很大的提升空间。因此,如何准确理解场景中的关键信息,高效直观地与虚拟三维场景模型交互,进而构建场景理解与交互的整体解决框架,成为本文的重点关注问题。本文从构建场景理解与交互的整体框架出发,研究了物体类别检测、场景字符细化重建、场景字符轮廓恢复和三维模型交互编辑等子问题。此外,我们基于雕塑辅助设计应用背景,提出了雕塑建模及姿态编辑系统,实现了视觉场景理解与交互过程。本文所取得的创新性成果主要包括以下几个方面:(1)提出了一种结合局部外观信息与上下文约束的多类物体检测方法。本文首先通过局部信息块构建多类霍夫森林,以刻画物体类间的形变和外观多样性。然后,本文提出一种多类上下文模型,以刻画物体实例间的相对位置约束。最后,一种用于结合外观信息和上下文约束的贪婪搜索算法被提出,以获取置信的多类物体检测结果。(2)提出了一种基于环半径变换(RRT)的场景多方向字符细化重建方法。... 

【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校

【文章页数】:161 页

【学位级别】:博士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 课题背景
    1.2 研究现状与挑战
    1.3 本文研究工作
        1.3.1 本文工作
        1.3.2 论文结构
第二章 视觉场景理解与交互技术综述
    2.1 视觉场景理解
        2.1.1 物体检测和识别算法
        2.1.2 文字检测与识别
        2.1.3 场景标注
    2.2 人机交互技术
        2.2.1 三维重建
        2.2.2 多媒体人机交互方式
        2.2.3 三维模型交互编辑方法
    2.3 本章小结
第三章 基于外观与上下文信息的多类物体检测与识别方法
    3.1 引言
    3.2 算法流程
        3.2.1 多类霍夫森林
        3.2.2 上下文模型
        3.2.3 贪婪搜索算法
    3.3 实验结果与讨论
        3.3.1 九类对象数据库
        3.3.2 LabelMe数据库
    3.4 本章小结
第四章 基于细化重建和轮廓恢复的场景文字检测与识别方法
    4.1 引言
    4.2 基于环半径变化的多方向场景文字细化重建方法
        4.2.1 算法流程
        4.2.2 实验结果与讨论
    4.3 场景/视频图像中的字符轮廓恢复方法
        4.3.1 算法流程
        4.3.2 实验结果与讨论
    4.4 本章小结
第五章 基于Kinect的实时三维模型交互编辑方法
    5.1 引言
    5.2 基于Kinect的鲁棒人体动作捕捉
    5.3 实时的增量式三维模型交互编辑方法
        5.3.1 引言
        5.3.2 算法流程
        5.3.3 增量式的简化三维模型编辑方法
        5.3.4 实验结果与讨论
    5.4 Kinect驱动的实时增量式三维模型交互编辑方法
        5.4.1 算法流程
        5.4.2 实验结果与讨论
    5.5 本章小结
第六章 基于视觉场景感知的雕塑姿态设计平台应用研究
    6.1 引言
    6.2 初始化雕塑设计
        6.2.1 多视角图像协同分割
        6.2.2 增量式三维重建
    6.3 实时的Kinect驱动的雕塑姿态设计平台
        6.3.1 构建拉普拉斯频谱空间
        6.3.2 候选编辑点搜索
    6.4 实验结果与讨论
    6.5 本章小结
第七章 总结与展望
    7.1 本文工作总结
    7.2 下一步研究方向
参考文献
简历与科研成果
致谢



本文编号:3337876

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3337876.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c17e4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com