基于图像拼接技术的自然场景视频文字识别研究

发布时间:2021-09-08 07:23
  服务机器人、自动驾驶等的运用过程中,往往要对视频图像进行处理,获取周围信息。而文字包含了许多高概括度的语义信息,在图像及视频的理解中承担着十分重要的功能。传统的印刷文本的识别与提取(OCR)技术已经十分成熟,但在文档之外,自然场景的文本识别则难度较大,且日益成为研究的热门领域。目前对于视频的文本获取,基本都将其分割为单帧图像进行处理,这将导致大量的重复以及不直观,特别是较大视场的文字以及数字信息,大多数方法得到的效果非常差。本文从这一角度出发,利用帧间联系,处理整个视频,获取其中文本全景图,获得直观的文本信息。首先,搭建文本检测神经网络,对YOLOv3目标检测框架进行修改,调整锚框横纵比、卷积结构等,使其更加符合文字检测的要求,融合多尺度锚框结果,在ICDAR13等数据集上进行端到端的训练测试,目的在于获取高速可靠的文本检测框架。然后,建立了文本跟踪模型,针对于视频文本处理,每一帧都使用检测将消耗大量的运算资源,采用跟踪代替检测,可以提高视频处理速度,获取关键帧。本文采用ECO跟踪技术,提出了改进版ECO,对检测出的文本进行持续跟踪,获取运动状态下文本的位置变化,及时判断文本开始结束关... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:79 页

【学位级别】:硕士

【部分图文】:

基于图像拼接技术的自然场景视频文字识别研究


文本识别典型流程图

滑窗检测,多尺度,文本


图 1-2 多尺度滑窗检测文本线 16 年提出了改进版的 MSER[9],使用新的结合了督信息用于训练具有文本区域专注力的卷积神经算法提升了召回率指标,同时准确率也有保障。人于 16 年提出的 CTPN[10](Connectionist Text Pro 结合,通过生成 text proposal 来检测文字所在区域水平向分布的文字检测,CTPN 在 Faster-RCNN 的用在文字识别上,即将文字与背景作为一个二分类模型并不能达到很好的效果,因此研究方向在于方面进行改进提高识别效果。

网络结构图,文字,目标识别,专注力


图 1-2 多尺度滑窗检测文本线黄伟林等人在 16 年提出了改进版的 MSER[9],使用新的结合了像素级信息,字符二类标签的监督信息用于训练具有文本区域专注力的卷积神经网络,用于筛选文字区域,整个算法提升了召回率指标,同时准确率也有保障。Alsharif O 等人于 16 年提出的 CTPN[10](Connectionist Text Proposal Network)将 CNN 与 LSTM 结合,通过生成 text proposal 来检测文字所在区域,能够高效用于复杂场景情况的水平向分布的文字检测,CTPN 在 Faster-RCNN 的基础上进行了改进,目标识别应用在文字识别上,即将文字与背景作为一个二分类问题,但简单地套用目标识别的模型并不能达到很好的效果,因此研究方向在于提取文字特有的特征,在过滤等方面进行改进提高识别效果。

【参考文献】:
硕士论文
[1]基于Struck的目标跟踪算法改进研究[D]. 苗超维.中北大学 2018
[2]基于SIFT特征的图像配准与拼接技术研究[D]. 王天云.南京邮电大学 2017
[3]基于深度学习的自然场景文字识别[D]. 黄攀.浙江大学 2016



本文编号:3390379

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3390379.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户33f32***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com