自然场景图像中的文字检测

发布时间:2017-09-12 21:31

  本文关键词:自然场景图像中的文字检测


  更多相关文章: 自然场景图像 文字检测 文字/非文字分类 Color-enhanced CER 神经网络 无歧义学习策略


【摘要】:随着低成本高性能移动、数码或可穿戴设备的成熟和普及,以及互联网和移动互联网技术的高速发展,越来越多的新型应用场景中需要利用图像中的文字信息,从而使得自然场景中的文字提取技术成为了近几年计算机视觉领域的热门研究课题。而文字检测技术作为文字提取技术中的一个核心前端模块,同样受到越来越多学者的关注。然而文字本身的高变化度(如各种各样的字体、大小等)加上自然场景中的不均匀光照,遮挡,模糊,透视变换等客观因素使得自然场景图像中的全自动文字检测问题变得极为困难。本文针对该问题的各个难点进行了深入的分析,提出了一套基于Color-enhanced CER和浅层神经网络的全自动文字检测系统,并在标准数据集上验证了算法的有效性。此外,在某些特定的应用场景中可以巧妙地利用用户的交互信息来简化文字检测问题的难度,这类问题被称为基于用户意图的文字检测问题。本文对该类问题也进行了深入的研究,并验证了图像的组件树结构对于解决基于用户意图的文字检测问题的有效性。所以,本文的主要工作可以被划分为自动的文字检测和基于用户意图的文字检测两个部分。 自动的文字检测主要包含两个核心子问题,即候选文字连通区域提取和文字/非文字分类。针对第一个问题,本文首先从理论上分析了经典的极值区域方法作为候选文字连通区域的局限性。为了抑制这些局限性,本文对极值区域算法提出改进,并提出Color-enhanced CER算法来作为本文的候选文字连通区域提取算法。文字/非文字分类是文字检测问题的瓶颈问题,本文从理论上深入阐明了该问题的主要难点及其原因,并指出歧义性问题和不平衡分类问题是导致作为少数类的文字类泛化能力差的重要原因,而这也正是之前的文字检测算法召回率低的一个重要原因。为了解决这个问题,本文算法在特征层面,系统层面以及训练数据准备层面上都提出了相应的有效解决方法。在特征层面,本文没有像之前的方法一样采用人工设计的特征,而是直接利用神经网络从后续文字连通区域所对应的二值图的原始像素中学出有用的特征,该方法一方面可以避免人工特征提取过程中有用信息的损失,另一方面可以降低算法的计算复杂度。在系统层面,为了克服歧义性问题,本文先利用孤立候选文字连通区域的形状或者纹理信息尽可能滤除无歧义非文字连通区域,以此简化后面文本行生成算法的难度,再利用文本行信息消除孤立候选文字连通区域的歧义性问题。其中,为了简化孤立候选文字连通区域的文字/非文字分类问题,本文提出“分治”策略将原始问题空间根据文字本身的特有属性切分为五个子空间,每个子空间分别利用无歧义学习策略训练相应的浅层神经网络分类器进行文字/非文字分类。在训练数据准备层面,无歧义学习策略可以很好地抑制歧义性问题和不平衡分类问题导致文字类泛化能力差的问题,从而使得在准备分类器训练数据的时候可以尽可能多且安全地使用从字体库合成的样本作为训练正样本。使用合成数据,一方面可以降低数据标注的工作量,另一方面保证训练数据干净且分布均匀,有助于分类器的性能。另外,通过无歧义学习策略可以有效地采样出少量且重要的非文字样本训练集,从而可以解决数据集不平衡问题。由于无歧义学习策略对原始的歧义性问题进行了简化,所以在通过该策略得到的训练数据集上,浅层神经网络可以得到接近深度神经网络的结果,这样一来本文就可以直接选用浅层神经网络作为各个文字/非文字分类器,从而大幅降低算法的计算复杂度。本文提出的文字检测算法在标准数据集ICDAR-2011和ICDAR-2013测试集上都取得了很好的结果。 针对基于用户意图的文字检测问题,本文提出可以利用图像的组件树结构来解决该问题,并验证了图像的组件树结构在解决基于用户意图的文字检测问题上的有效性。相比于传统的扫描线法,本文提出的基于组件树的算法大幅提升了检测的准确度。之后本文又对初始算法提出改进,设计了一套改进版的基于组件树的算法,进一步提升了算法的性能。
【关键词】:自然场景图像 文字检测 文字/非文字分类 Color-enhanced CER 神经网络 无歧义学习策略
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.41
【目录】:
  • 摘要5-7
  • Abstract7-10
  • 目录10-12
  • 第1章 绪论12-22
  • 1.1 文字检测研究及意义12-17
  • 1.2 文字检测问题难点分析17-19
  • 1.3 基于用户意图(User-intention)的文字检测19-20
  • 1.4 本文主要工作20
  • 1.5 本文结构安排20-22
  • 第2章 文字检测技术概述22-30
  • 2.1 全自动的文字检测技术概述22-28
  • 2.1.1 基于区域的文字检测算法23-24
  • 2.1.2 基于连通区域的文字检测算法24-28
  • 2.1.3 基于前两种方法融合的方法28
  • 2.2 基于用户意图的文字检测技术概述28-29
  • 2.3 小结29-30
  • 第3章 自然场景图像中的全自动文字检测30-85
  • 3.1 引言30-41
  • 3.1.1 候选连通区域提取难点分析及解决思路30-32
  • 3.1.2 文字/非文字分类难点分析及解决思路32-41
  • 3.2 神经网络简介41-46
  • 3.2.1 一般前馈神经网络简介41-44
  • 3.2.2 Dropout算法44
  • 3.2.3 本文参数设置44-46
  • 3.3 本文解决方案46-75
  • 3.3.1 系统概述46-47
  • 3.3.2 颜色空间变换47-50
  • 3.3.3 Color-enhanced CER提取50-58
  • 3.3.4 文字/非文字分类58-75
  • 3.3.5 后处理75
  • 3.3.6 多通道结果融合75
  • 3.4 实验结果75-82
  • 3.4.1 系统的总体结果评测76-81
  • 3.4.2 系统主要模块的结果评测81-82
  • 3.5 算法局限性82-83
  • 3.6 算法讨论83-84
  • 3.7 本章小结84-85
  • 第4章 基于用户意图的文字检测85-94
  • 4.1 文献[23]中的算法85-89
  • 4.2 改进算法89-91
  • 4.3 实验结果91-93
  • 4.4 本章小结93-94
  • 第5章 总结与展望94-97
  • 5.1 本文工作总结94-95
  • 5.2 未来研究展望95-97
  • 插图索引97-100
  • 表格索引100-101
  • 参考文献101-111
  • 致谢111-113
  • 攻读博士学位期间的研究成果

【相似文献】

中国期刊全文数据库 前10条

1 彭浩;陈继锋;刘琼;王海涛;高海波;;一种面向聚焦爬虫的自然场景文本定位技术[J];小型微型计算机系统;2014年09期

2 戴津;;自然场景中文本检测技术研究综述[J];计算机光盘软件与应用;2013年18期

3 古辉;芦亚亚;丁维龙;王杰;张维统;;自然场景下果实目标的识别和定位[J];浙江工业大学学报;2007年03期

4 皮学贤;李思昆;宋君强;;一种新的离散格子气模型及其在自然场景仿真中的应用[J];计算机工程与科学;2006年10期

5 杨丹;李博;赵红;;鲁棒视觉词汇本的自适应构造与自然场景分类应用[J];电子与信息学报;2010年09期

6 刘宏;普杰信;;一种改进的自然场景特征提取方法[J];计算机工程;2011年21期

7 宋文;肖建于;;基于笔画宽度变换的自然场景文本检测方法[J];计算机工程与应用;2013年09期

8 张冬梅;张全元;郑达;郑蔚;李晖;戴光明;;一种新的自然场景标志牌文本提取算法[J];计算机工程与应用;2007年24期

9 常莹;何东健;李宗儒;;基于聚类与边缘检测的自然场景文本提取方法[J];计算机工程与设计;2010年18期

10 徐琼;干宗良;刘峰;陈昌红;;基于提升树的自然场景中文文本定位算法研究[J];南京邮电大学学报(自然科学版);2013年06期

中国重要会议论文全文数据库 前1条

1 霍静萍;杜建政;;自然场景视觉记忆中颜色的作用途径[A];第十一届全国心理学学术会议论文摘要集[C];2007年

中国博士学位论文全文数据库 前4条

1 吴锐;自然场景中文本识别技术研究及实现[D];哈尔滨工业大学;2010年

2 黄剑华;自然场景中文本信息提取方法[D];哈尔滨工业大学;2007年

3 孙雷;自然场景图像中的文字检测[D];中国科学技术大学;2015年

4 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年

中国硕士学位论文全文数据库 前10条

1 杨帆;基于脑电的自然场景下目标的快速识别研究[D];云南大学;2014年

2 王炜;基于角点和颜色的自然场景文字定位技术研究[D];西安电子科技大学;2011年

3 葛巧瑞;自然场景下的文字分割及识别研究[D];西安电子科技大学;2012年

4 刘宏;基于双目视觉的自然场景感知[D];河南科技大学;2011年

5 覃香;自然场景下苹果检测系统的研究与实现[D];西北农林科技大学;2011年

6 马然;基于深度学习的自然场景文本识别系统的设计与实现[D];吉林大学;2015年

7 汪文芳;基于移动终端的自然场景文本定位和识别[D];西安电子科技大学;2011年

8 廖威敏;面向自然场景的端对端英文文字识别研究[D];厦门大学;2014年

9 芦亚亚;自然场景下果蔬识别定位系统的关键技术研究[D];浙江工业大学;2007年

10 霍静萍;自然场景视觉记忆中颜色的作用[D];河南大学;2007年



本文编号:839659

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/839659.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d7a83***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com