基于深度学习的自然场景文字识别
发布时间:2017-04-29 01:09
本文关键词:基于深度学习的自然场景文字识别,由笔耕文化传播整理发布。
【摘要】:与一般的视觉元素不同,文字包含了丰富的高层语义信息,能够帮助计算机更为准确地解读图像内容。这对图像理解有着重要的学术意义。此外,工业界对自然场景中的文字识别技术也有着极大需求。文字识别技术在虚拟现实、人机交互、图像检索、无人驾驶、车牌识别、工业自动化等领域中有着广泛的应用。传统光字符识别技术(OCR)主要面向高质量的文档图像。此类技术假设输入图像背景干净、字体简单且文字排布整齐,在符合要求的情况下能够达到很高的识别水平。与文档文字识别不同,自然场景中的文字识别则面临着图像背景复杂、分辨率底下、字体多样、分布随意等挑战,传统光学识别技术在此类情况下几乎无法被应用。作为大量相关技术的基础工作,自然场景文字识别的不断发展和突破具有深远的研究意义和实际价值。本文结合深度学习技术,提出了一套针对自然场景文字的识别方法。本文主要工作如下:(1)提出了基于CNN和BiRNN的、结合上下文的图像编码方法。利用CNN从底层像素中获得高层视觉特征,并利用CNN局部感知特性建立起高层特征与底层像素的位置关系,然后利用BiRNN捕获图像全局信息。实验表明该编码方法具有良好的表达能力。(2)提出了基于ARSG的文字解码方法,同时完成字符定位和文字识别功能。ARSG利用RNN完成序列标注任务。并在逐字符分类过程中,利用注意力机制,对当前神经网络的关注点进行建模,从而得到每个字符在图像中的位置。同时,利用启发式规则和延迟生成技术,提高了识别的效率和精度。实验表明,该方法能够获得较好的字符定位和文字识别效果。(3)实现了一套高效的深度学习框架。该框架能够支持多种神经网络结构,并提供了一系列行之有效的训练策略。利用该框架初步验证了基于深度学习的自然场景文字识别算法的有效性。实验表明,本文算法相对其它算法,泛化能力和识别精度有着明显的提升。
【关键词】:文字识别 自然图像 深度学习 图像理解 高层语义
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-12
- 第1章 绪论12-20
- 1.1 引言12-13
- 1.2 相关技术及研究现状13-18
- 1.2.1 自然场景文字处理流程13-14
- 1.2.2 自然场景文字识别的困难和挑战14-15
- 1.2.3 自然场景文字识别的研究现状15-17
- 1.2.4 现有方法存在的问题17-18
- 1.3 本文研究目标与内容18-20
- 第2章 基于深度学习的文字识别框架20-30
- 2.1 深度学习理论20-25
- 2.1.1 人工神经网络20-24
- 2.1.2 神经网络训练24-25
- 2.2 基于深度学习的自然场景文字识别框架25-29
- 2.2.1 问题分析25-26
- 2.2.2 框架介绍26-29
- 2.3 本章小结29-30
- 第3章 基于CNN和BiRNN的图像编码30-43
- 3.1 方法概述30-31
- 3.2 图像预处理31-32
- 3.3 基于CNN的静态局部特征提取32-38
- 3.3.1 CNN网络结构概述32-34
- 3.3.2 CNN网络设计34-38
- 3.4 基于BiRNN的上下文特征提取38-42
- 3.4.1 BiRNN网络结构概述38-39
- 3.4.2 BiRNN网络设计39-42
- 3.5 注解向量序列生成42
- 3.6 本章总结42-43
- 第4章 基于ARSG的文字解码43-52
- 4.1 方法概述43-44
- 4.2 基于注意力机制的字符定位44-47
- 4.2.1 注意力机制简介44-46
- 4.2.2 效率优化46-47
- 4.3 基于ARSG的字符序列生成47-51
- 4.3.1 算法概述47-48
- 4.3.2 网络结构48-49
- 4.3.3 延迟生成49-50
- 4.3.4 Beam搜索50-51
- 4.4 本章小结51-52
- 第5章 神经网络训练策略52-59
- 5.1 引言52
- 5.2 训练加速策略52-55
- 5.2.1 CNN预训练52-53
- 5.2.2 基于GPU的训练加速方法53-54
- 5.2.3 Downpour SGD训练算法54-55
- 5.3 过拟合预防策略55-57
- 5.3.1 数据增广55-56
- 5.3.2 Dropout56
- 5.3.3 早期停止56-57
- 5.3.4 权值衰减57
- 5.4 本章小结57-59
- 第6章 实验与分析59-67
- 6.1 引言59
- 6.2 数据集59-60
- 6.3 实验过程60-62
- 6.3.1 实验环境60
- 6.3.2 实验配置60-61
- 6.3.3 实验结果61-62
- 6.4 结果分析62-66
- 6.4.1 识别过程可视化62-63
- 6.4.2 泛化能力分析63-65
- 6.4.3 性能分析65
- 6.4.4 参数数量分析65
- 6.4.5 延迟生成对结果的影响65-66
- 6.5 本章小结66-67
- 第7章 总结与展望67-69
- 7.1 总结67
- 7.2 展望67-69
- 参考文献69-73
- 攻读硕士学位期间主要的研究成果73-74
- 致谢74
【参考文献】
中国博士学位论文全文数据库 前1条
1 蒋兵;语种识别深度学习方法研究[D];中国科学技术大学;2015年
本文关键词:基于深度学习的自然场景文字识别,,由笔耕文化传播整理发布。
本文编号:333914
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/333914.html