基于多尺度细节保留的复杂场景文本检测
发布时间:2020-12-27 06:56
文本在自然场景中几乎无处不见,与图像中的其它目标(如:花草、建筑物等)相比较,自然场景图像中的文本信息具有较强的逻辑性与较丰富的表达能力,可以有效地提供高层次的语义信息。高效自动地处理自然场景图像中的文本信息,对提高工业自动化水平、网络检索能力、场景分析能力等具有重要研究意义。文本是我们理解自然场景的重要元素,自然场景中的文本检测目前被用于解决许多实际视觉问题。因此研究自然场景中的文本检测具有重大的实际应用价值。然而,自然场景中的文本因为图像拍摄角度、光线等客观因素影响,也因为文字的排列方式等原因给文本检测带来了很大的困难。当下流行的深度学习方法相较于传统(Optical Character Recognition OCR)方法获得了更加优异的检测效果,但目前大多数深度学习方法都是从目标检测领域直接引用过来的模型,对文本信息的针对性不强,细节信息容易在串联式的卷积操作中丢失,导致误检和漏检。因此,从自然场景图像中检测文本仍是一件非常具有挑战性的任务。本文基于深度学习算法,针对卷积操作中的细节丢失,对文本信息不敏感等问题开展了一系列的研究:(1)提出一种端到端的基于注意力机制的复杂场景文...
【文章来源】:山西大学山西省
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
场景文字检测
梢越馐屯枷竦?内容,还可以用来搜索和分析图像和视频的内容。毫无疑问,图中的文本信息十分具有研究价值。传统的(OpticalCharacterRecognitionOCR)方法受技术水平的限制一般只对文档文本适用。而大多数的图像都是在自然场景下拍摄,文字的周围有大量的其他目标和复杂的背景。复杂场景文本检测是传统OCR技术在自然图像上的扩展,它的应用领域十分广泛。比如图像搜索(文字辅助理解图像)、自动驾驶(交通标识检测)、医疗健康、教育产业(自动阅卷)等行业都有不同程度的应用需求。a)无人超市b)无人酒店c)无人驾驶d)网上阅卷图1.1场景文字检测的现实应用示例(1)人工智能人工智能要求机器能够自行的根据当时的环境做出响应分析,从而做出较好的决策。文本是传达信息的重要方式,想要达到人类一样的处理能力,机器第一个需要的就是正确的定位文本区域。例如图1.1(a),无人超市现在已经投放在一些一线城市试点。当我们结账的时候,机器可以轻松的定位文本区域,可以通过文字、商标来识别商品的价格。又例如图1.1(b),无人酒店也是现在发展的一个趋势,在杭州就有这么一家无人酒店,我们可以通过手机下单,机器人会通过检测识别房门号码来准确无误的将产品送到顾客的手上。
第二章理论基础9第二章理论基础2.1文本检测的相关理论计算机视觉就是让机器像人一样去找到目标并且理解目标所传递的信息,简而言之就是理解图像。图像的理解有很多层级,对图像进行片面的选择处理,例如对物体的纹理、颜色等信息的理解,这是对图像的低级理解;对图像中感兴趣的目标进行检测或测量等则是中级的理解,对图像进行分析;而对图像中文字的理解,则是对高层语义信息的理解,是对图像的理解,可以直接被用于逻辑分析,从而像人类一样指导和计划行动。由于文字无处不在和文字内容的重要性,图像中文字的检测以及后续的识别一直都是十分重要的。图像中的文字检测可以分为两类,一类是单一背景下的文本,另一类是复杂场景下的文本。2.1.1单一背景文字检测我们通常所说的单一背景下的文本检测,一般是指文档中“白纸黑字”式的文本检测或者背景单一的图像中的文本检测。文档图像一般分辨率很高,其中的文本都是由单一的背景组成,或者是单一的颜色,或者较为简单的背景图案(例2.1(a))。其中的文字是较为常规的字体,排列均匀,尺寸基本一致,布局格式相对固定,内容以字符为主,不会出现很多的字体变形和复杂的干扰纹理。而且单一背景的文本检测大多数都是主动配合式拍摄的,并不会存在有倾斜,扭曲等式样。这种图片中的文本检测的难度并不大,其检测率也已达到实用的要求,比如常见的OCR应用。a单一背景图片b复杂场景图片图2.1场景文字检测的现实应用示例
本文编号:2941294
【文章来源】:山西大学山西省
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
场景文字检测
梢越馐屯枷竦?内容,还可以用来搜索和分析图像和视频的内容。毫无疑问,图中的文本信息十分具有研究价值。传统的(OpticalCharacterRecognitionOCR)方法受技术水平的限制一般只对文档文本适用。而大多数的图像都是在自然场景下拍摄,文字的周围有大量的其他目标和复杂的背景。复杂场景文本检测是传统OCR技术在自然图像上的扩展,它的应用领域十分广泛。比如图像搜索(文字辅助理解图像)、自动驾驶(交通标识检测)、医疗健康、教育产业(自动阅卷)等行业都有不同程度的应用需求。a)无人超市b)无人酒店c)无人驾驶d)网上阅卷图1.1场景文字检测的现实应用示例(1)人工智能人工智能要求机器能够自行的根据当时的环境做出响应分析,从而做出较好的决策。文本是传达信息的重要方式,想要达到人类一样的处理能力,机器第一个需要的就是正确的定位文本区域。例如图1.1(a),无人超市现在已经投放在一些一线城市试点。当我们结账的时候,机器可以轻松的定位文本区域,可以通过文字、商标来识别商品的价格。又例如图1.1(b),无人酒店也是现在发展的一个趋势,在杭州就有这么一家无人酒店,我们可以通过手机下单,机器人会通过检测识别房门号码来准确无误的将产品送到顾客的手上。
第二章理论基础9第二章理论基础2.1文本检测的相关理论计算机视觉就是让机器像人一样去找到目标并且理解目标所传递的信息,简而言之就是理解图像。图像的理解有很多层级,对图像进行片面的选择处理,例如对物体的纹理、颜色等信息的理解,这是对图像的低级理解;对图像中感兴趣的目标进行检测或测量等则是中级的理解,对图像进行分析;而对图像中文字的理解,则是对高层语义信息的理解,是对图像的理解,可以直接被用于逻辑分析,从而像人类一样指导和计划行动。由于文字无处不在和文字内容的重要性,图像中文字的检测以及后续的识别一直都是十分重要的。图像中的文字检测可以分为两类,一类是单一背景下的文本,另一类是复杂场景下的文本。2.1.1单一背景文字检测我们通常所说的单一背景下的文本检测,一般是指文档中“白纸黑字”式的文本检测或者背景单一的图像中的文本检测。文档图像一般分辨率很高,其中的文本都是由单一的背景组成,或者是单一的颜色,或者较为简单的背景图案(例2.1(a))。其中的文字是较为常规的字体,排列均匀,尺寸基本一致,布局格式相对固定,内容以字符为主,不会出现很多的字体变形和复杂的干扰纹理。而且单一背景的文本检测大多数都是主动配合式拍摄的,并不会存在有倾斜,扭曲等式样。这种图片中的文本检测的难度并不大,其检测率也已达到实用的要求,比如常见的OCR应用。a单一背景图片b复杂场景图片图2.1场景文字检测的现实应用示例
本文编号:2941294
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2941294.html