基于深度学习的自然场景文字检测与识别方法研究
【学位单位】:华中科技大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP391.41;TP183
【部分图文】:
受到技术水平和硬件条件的限制,传统的OCR方法只针对文档文字设计。自然图??片中的文字通常被称作场景文字(scene?text),场景文字检测识别是传统OCR在自然图??片上的延续和升级。它的应用极其广泛,如图1.1所示\识别商品包装可以在无人超市??中追踪商品;识别路牌可以辅助无人驾驶车的导航(尤其是在GPS信号弱的建筑物密集??区域);识别场景中的文字并转化为音频,可以让盲人不依赖盲文就可以阅读文字;识??别门牌号可以实现快递机器人送货上门;识别单据可以实现自动化记账;识别外语并加??以翻译可以方便出国旅行的游客。场景文字无处不在,场景文字检测识别的应用也因此??无处不在。尤其是近年来移动设备的普及使得自然图像的数量呈现指数增长趋势,导致??工业界对场景文字检测识别技术的需求日益急迫。近年来,各大科技公司如Google、微??软等都推出了各自的计算机视觉云服务,这些云服务都将场景文字检测识别作为基本功??能之一。??传统的OCR方法大多针对扫描文档图片设计。如图1.2所示,这些图片通常由扫描??仪等设备获取,成像过程高度受控。因此,文档图片大多有干净和纯色的背景、字体变??2??
尽管传统的OCR技术已经趋于成熟,场景文字的检测和识别至今仍面临着巨大的??挑战。挑战主要来源于三个方面。首先,相比文档图片,场景文字的背景更为复杂。如??图1.3所示2,场景图片种视觉元素种类繁多,其中包含许多容易和文字混淆的物体和纹??理。复杂的背景使得二值化算法难以将文字从背景中区分开,并且会让传统的物体检测??器产生大量的虚警(false?positives),给文字定位造成困难。??其次,场景文字的字体、颜色、排布相比文档文字复杂得多。场景文字多用于广告、??商标等文宣用途,具有强烈的艺术风格,其字体、尺寸、颜色、排版、纹理等都存在剧烈??变化。此外,光照条件、相机拍摄角度等成像条件皆不受控,也会影响文字的外观。传??统的手工设计特征和浅层分类器不能很好地应对场景文字自身的变化。因此,场景文字??结合了前景和背景两方面的复杂性,其识别难度远胜文档文字。事实
文字检测的挑战主要来源于以下四个方面。第一,场景文字的字体、颜色等变换剧??烈,且自然图片的背景中存在大量容易和文字混淆的物体和纹理,两者都给检测造成了??困难;第二,如图2.1所示,场景文字是细长形状的物体,其宽高比往往大于一般物体。??这一特性在德语、汉语等语言上尤为明显:前者的平均单词长度较长,许多单词超过2〇??个字母,宽高比很大;后者没有单词的概念,词与词之间没有空格分离,因此检测对象??只能是整条的文字行,宽高比更加极端。宽高比的大范围变化给物体检测造成了困难,??尤其是基于滑动窗的检测方法;第三,同样如图2.1所示,场景文字可以是倾斜的,需要??用带方向的包围盒检测;第四,由于文字检测需要在整张图片上进行,其运算效率十分??19??
【相似文献】
相关期刊论文 前10条
1 胡悦;;金融市场中的神经网络拐点预测法[J];金融经济;2017年18期
2 迟惠生;陈珂;;1995年世界神经网络大会述评[J];国际学术动态;1996年01期
3 吴立可;;脉冲神经网络和行为识别[J];通讯世界;2018年12期
4 王丽华;杨秀萍;王皓;高峥翔;;智能双轮平衡车的设计研究[J];数字技术与应用;2018年04期
5 张庭略;;基于硬件的神经网络加速[J];通讯世界;2018年08期
6 苏秀婷;;耦合神经网络的同步[J];绍兴文理学院学报(自然科学);2016年03期
7 朱溦;;神经网络结合平均影响值方法筛选变量[J];产业与科技论坛;2017年01期
8 ;硅光子神经网络亮相[J];石油工业计算机应用;2016年04期
9 任刚红;杜坤;周明;刘年东;张晋;;基于级联神经网络的年降雨量预测[J];土木建筑与环境工程;2016年S2期
10 金鑫;李龙威;季佳男;李祉歧;胡宇;赵永彬;;基于大数据和优化神经网络短期电力负荷预测[J];通信学报;2016年S1期
相关博士学位论文 前10条
1 石葆光;基于深度学习的自然场景文字检测与识别方法研究[D];华中科技大学;2018年
2 刘梅;网络系统的稳定和同步行为研究[D];新疆大学;2017年
3 靳然;基于神经网络和支持向量机的麦蚜发生动态预测研究[D];山西农业大学;2017年
4 李骁;基于深度卷积神经网络MSCT对小肾肿瘤病理分型的预测研究[D];中国人民解放军海军军医大学;2018年
5 李若霞;基于忆阻的神经网络的动力学分析及应用[D];东南大学;2017年
6 项延德;基于卷积神经网络的心电信号检测和分类研究[D];浙江大学;2018年
7 李一鸣;结合知识和神经网络的文本表示方法的研究[D];浙江大学;2018年
8 李扬;面向图像目标识别和检测的深度神经网络关键技术研究[D];北京邮电大学;2018年
9 LYDIA LAZIB;文本否定范围识别技术研究及其应用[D];哈尔滨工业大学;2018年
10 周小强;基于深度学习的交互式问答技术研究[D];哈尔滨工业大学;2017年
相关硕士学位论文 前10条
1 陈超峰;高速公路全线建设三维智能动态优化管理方法研究[D];石家庄铁道大学;2018年
2 赵丽;基于图像识别技术的网络阅卷系统的研究与设计[D];石家庄铁道大学;2018年
3 张丽民;基于深度卷积神经网络的室内服务机器人的场景理解技术研究[D];江苏科技大学;2018年
4 吕权;基于神经网络的番茄叶部病害识别[D];河北农业大学;2018年
5 郭雷;分布式光伏发电系统超短期功率预测方法研究[D];沈阳农业大学;2018年
6 杨天云;基于卷积神经网络的多尺度目标检测研究[D];华中科技大学;2017年
7 葛波;基于深度卷积神经网络的脑组织分割方法研究[D];华中科技大学;2017年
8 张容容;基于BP神经网络的多通道微波辐射计大气参数反演算法[D];华中科技大学;2017年
9 鲁向拥;基于交通大数据的KPI关联关系发现方法研究[D];华中科技大学;2017年
10 曹雷;一种基于卷积神经网络的加密解密算法[D];华中科技大学;2017年
本文编号:2880909
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2880909.html