当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的自然场景文字检测与识别方法研究

发布时间:2020-11-12 15:27
   文字是人类文明的基石,也是现代社会信息交流最重要的媒介。场景文字是自然图像中的文字。它在日常生活中无处不在,名片、路牌、包装、车牌、店铺门面等物体都携带文字,并由文字描述。对场景文字的识别是人类视觉的重要功能,也是计算机视觉的重要问题。它可以被用于大量的实际问题,如车牌识别、地理定位、单据识别、无人驾驶、无人超市等,是计算机视觉的一项基础设施。由于文字的重要性,对文档文字识别的研究早在几十年前就已经开始,积累了大量研究。然而,场景文字在字体、颜色、尺度、排布、图像质量等方面高度复杂,挑战性远胜于文档文字。因此,尽管文档文字的识别技术已相对成熟,现有方法却难以应对自然场景文字的复杂性。近年来,深度学习的出现为计算机视觉提供了新的思路,并在多项基础问题中取得了突破。本文基于深度学习算法,围绕场景文字检测与识别问题开展一系列的研究:(1)本文提出一种快速任意方向文字检测方法。该方法基于原创的“片段链接”思想,将文字行拆分成片段和链接两种元素:片段是单词或文字行的一小段;链接将属于同一单词或文字行的相邻片段相连。片段和链接通过一个全卷积网络在多个尺度上密集地检测,并根据几何规则组合得到整词。该方法采用一种与主流物体检测方法截然不同的思路,有效解决了细长文字检测这一困扰学界多年的难题。它在标准数据集IC15的结果大幅超出了先前的方法,检测速度高达20帧每秒,并且同时适用于英文和中文的检测,和现有方法相比具备多方面的优势。(2)本文提出一种端到端可训练的文字识别神经网络模型。该模型首次将卷积神经网络、循环神经网络、联结时序分类三者结合,能够直接从图片中识别出文字内容,并可以由图片和文字标注端到端地训练,极大地简化了传统方法中复杂的训练测试流程。该模型不仅识别准确,还具备模型参数少、输入图片尺寸任意、易训练、易部署等多项优势。(3)本文研究了不规则文字的识别问题。不规则文字是非水平书写的文字,通常由侧面拍摄、倾斜放置、弯曲排列等因素导致。它们在自然场景中广泛出现,且难以识别。本文提出一种新颖的矫正-识别神经网络模型。该模型通过一种灵活的矫正机制,在识别前对输入图片进行自适应的矫正,能够纠正多种不规则的情形。矫正模型完全由识别模型所反向传递的梯度进行训练,无需额外的人工标注。该模型识别性能优异,在7个主流数据集的12项指标中取得9项最优。此外,它还能够在端到端系统中强化检测器,使端到端识别的准确率大幅度超过TextSpotter和Deep TextSpotter等现有端到端系统,达到同时期的最优结果。(4)本文提出并研究了一项新问题:场景文字语种识别。在多语言环境中,知晓文字的语言种类是识别文字内容的前提。场景文字语种识别是多语言环境下场景文字系统必不可少的一环,然而相关研究仍处于空缺状态。语种识别的一项重要挑战是区分相似语种之间的细微差别。本文提出一种基于区分式卷积神经网络的语种识别模型。该模型结合了卷积神经网络和区分式聚类算法,能够捕捉到不同语种文字之间的细节差异。它在场景、视频、文档文字上都取得了良好的语种识别效果,且具有可解释性。为了给后续研究打下基础,本文还收集了一个新的数据集,该数据集由包含13种语言的16291张图片及语种标注构成。通过上述的研究,本文构建了一套完整的场景文字检测与识别算法系统,并且为场景文字语种识别问题奠定了基础。
【学位单位】:华中科技大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP391.41;TP183
【部分图文】:

文字检测,现实应用,场景,示例


受到技术水平和硬件条件的限制,传统的OCR方法只针对文档文字设计。自然图??片中的文字通常被称作场景文字(scene?text),场景文字检测识别是传统OCR在自然图??片上的延续和升级。它的应用极其广泛,如图1.1所示\识别商品包装可以在无人超市??中追踪商品;识别路牌可以辅助无人驾驶车的导航(尤其是在GPS信号弱的建筑物密集??区域);识别场景中的文字并转化为音频,可以让盲人不依赖盲文就可以阅读文字;识??别门牌号可以实现快递机器人送货上门;识别单据可以实现自动化记账;识别外语并加??以翻译可以方便出国旅行的游客。场景文字无处不在,场景文字检测识别的应用也因此??无处不在。尤其是近年来移动设备的普及使得自然图像的数量呈现指数增长趋势,导致??工业界对场景文字检测识别技术的需求日益急迫。近年来,各大科技公司如Google、微??软等都推出了各自的计算机视觉云服务,这些云服务都将场景文字检测识别作为基本功??能之一。??传统的OCR方法大多针对扫描文档图片设计。如图1.2所示,这些图片通常由扫描??仪等设备获取,成像过程高度受控。因此,文档图片大多有干净和纯色的背景、字体变??2??

文字,场景,文档,排布


尽管传统的OCR技术已经趋于成熟,场景文字的检测和识别至今仍面临着巨大的??挑战。挑战主要来源于三个方面。首先,相比文档图片,场景文字的背景更为复杂。如??图1.3所示2,场景图片种视觉元素种类繁多,其中包含许多容易和文字混淆的物体和纹??理。复杂的背景使得二值化算法难以将文字从背景中区分开,并且会让传统的物体检测??器产生大量的虚警(false?positives),给文字定位造成困难。??其次,场景文字的字体、颜色、排布相比文档文字复杂得多。场景文字多用于广告、??商标等文宣用途,具有强烈的艺术风格,其字体、尺寸、颜色、排版、纹理等都存在剧烈??变化。此外,光照条件、相机拍摄角度等成像条件皆不受控,也会影响文字的外观。传??统的手工设计特征和浅层分类器不能很好地应对场景文字自身的变化。因此,场景文字??结合了前景和背景两方面的复杂性,其识别难度远胜文档文字。事实

物体检测,字检测,宽高比


文字检测的挑战主要来源于以下四个方面。第一,场景文字的字体、颜色等变换剧??烈,且自然图片的背景中存在大量容易和文字混淆的物体和纹理,两者都给检测造成了??困难;第二,如图2.1所示,场景文字是细长形状的物体,其宽高比往往大于一般物体。??这一特性在德语、汉语等语言上尤为明显:前者的平均单词长度较长,许多单词超过2〇??个字母,宽高比很大;后者没有单词的概念,词与词之间没有空格分离,因此检测对象??只能是整条的文字行,宽高比更加极端。宽高比的大范围变化给物体检测造成了困难,??尤其是基于滑动窗的检测方法;第三,同样如图2.1所示,场景文字可以是倾斜的,需要??用带方向的包围盒检测;第四,由于文字检测需要在整张图片上进行,其运算效率十分??19??
【相似文献】

相关期刊论文 前10条

1 胡悦;;金融市场中的神经网络拐点预测法[J];金融经济;2017年18期

2 迟惠生;陈珂;;1995年世界神经网络大会述评[J];国际学术动态;1996年01期

3 吴立可;;脉冲神经网络和行为识别[J];通讯世界;2018年12期

4 王丽华;杨秀萍;王皓;高峥翔;;智能双轮平衡车的设计研究[J];数字技术与应用;2018年04期

5 张庭略;;基于硬件的神经网络加速[J];通讯世界;2018年08期

6 苏秀婷;;耦合神经网络的同步[J];绍兴文理学院学报(自然科学);2016年03期

7 朱溦;;神经网络结合平均影响值方法筛选变量[J];产业与科技论坛;2017年01期

8 ;硅光子神经网络亮相[J];石油工业计算机应用;2016年04期

9 任刚红;杜坤;周明;刘年东;张晋;;基于级联神经网络的年降雨量预测[J];土木建筑与环境工程;2016年S2期

10 金鑫;李龙威;季佳男;李祉歧;胡宇;赵永彬;;基于大数据和优化神经网络短期电力负荷预测[J];通信学报;2016年S1期


相关博士学位论文 前10条

1 石葆光;基于深度学习的自然场景文字检测与识别方法研究[D];华中科技大学;2018年

2 刘梅;网络系统的稳定和同步行为研究[D];新疆大学;2017年

3 靳然;基于神经网络和支持向量机的麦蚜发生动态预测研究[D];山西农业大学;2017年

4 李骁;基于深度卷积神经网络MSCT对小肾肿瘤病理分型的预测研究[D];中国人民解放军海军军医大学;2018年

5 李若霞;基于忆阻的神经网络的动力学分析及应用[D];东南大学;2017年

6 项延德;基于卷积神经网络的心电信号检测和分类研究[D];浙江大学;2018年

7 李一鸣;结合知识和神经网络的文本表示方法的研究[D];浙江大学;2018年

8 李扬;面向图像目标识别和检测的深度神经网络关键技术研究[D];北京邮电大学;2018年

9 LYDIA LAZIB;文本否定范围识别技术研究及其应用[D];哈尔滨工业大学;2018年

10 周小强;基于深度学习的交互式问答技术研究[D];哈尔滨工业大学;2017年


相关硕士学位论文 前10条

1 陈超峰;高速公路全线建设三维智能动态优化管理方法研究[D];石家庄铁道大学;2018年

2 赵丽;基于图像识别技术的网络阅卷系统的研究与设计[D];石家庄铁道大学;2018年

3 张丽民;基于深度卷积神经网络的室内服务机器人的场景理解技术研究[D];江苏科技大学;2018年

4 吕权;基于神经网络的番茄叶部病害识别[D];河北农业大学;2018年

5 郭雷;分布式光伏发电系统超短期功率预测方法研究[D];沈阳农业大学;2018年

6 杨天云;基于卷积神经网络的多尺度目标检测研究[D];华中科技大学;2017年

7 葛波;基于深度卷积神经网络的脑组织分割方法研究[D];华中科技大学;2017年

8 张容容;基于BP神经网络的多通道微波辐射计大气参数反演算法[D];华中科技大学;2017年

9 鲁向拥;基于交通大数据的KPI关联关系发现方法研究[D];华中科技大学;2017年

10 曹雷;一种基于卷积神经网络的加密解密算法[D];华中科技大学;2017年



本文编号:2880909

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2880909.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户89282***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com