自然场景图像中的文本检测与识别技术研究
发布时间:2021-04-20 05:36
自然场景图像中的文本含有丰富而准确的高层语义信息,这些语义信息对于盲人障碍导航系统、智能城市交通管理系统、汽车的无人驾驶系统、即时翻译系统都具有指导意义。因此,对自然场景图像中文本进行定位和识别具有极大的研究价值。本文针对自然场景下的文本定位与识别进行了深入研究,具体的工作如下:1.传统MSER算法对光照敏感且在单一的灰度通道上进行文本候选区域提取时会出现文本漏检情况。针对此问题,本文提出了一种基于多通道光照均衡化的MSER算法。首先,分别在R、G、B通道下对图片做光照均衡化处理;然后,在对应通道下用MSER检测算子提取文本字符的MSER区域;最后,合并每个通道的MSER区域作为字符候选区域。经过实验验证,改进后的算法针对光照不均匀或不同复杂背景上的图片,都能检测到相对完整的字符区域,提高了算法的召回率。2.传统MSER算法对于复杂背景的场景文本检测时会出现误检情况。针对此问题,本文提出一种基于多特征融合的伪字符区域过滤算法。首先,对字符候选区域分别提取HOG特征、LBP特征、CNN特征;然后,将这三种特征进行串形融合;最后,利用SVM训练一个字符判别器来过滤伪字符区域。经实验验证,此...
【文章来源】:西安理工大学陕西省
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 课题研究的背景与意义
1.2 相关领域的国内外研究现状
1.2.1 文本检测和识别技术面临挑战
1.2.2 场景文本定位研究现状
1.2.3 场景文本识别研究现状
1.3 本文的主要研究内容和论文安排
2 相关理论介绍
2.1 MSER原理介绍
2.2 卷积神经网络介绍
2.3 循环神经网络介绍
2.4 数据库介绍
2.4.1 ICDAR2013 数据集
2.4.2 MJSynth数据集
2.5 本章小结
3 基于MSER与多特征融合的场景文本定位
3.1 文本定位步骤
3.2 提取字符候选区域
3.3 伪字符区域过滤
3.3.1 候选区域预处理
3.3.2 HOG特征提取
3.3.3 LBP特征提取
3.3.4 CNN特征提取
3.3.5 基于SVM的伪字符区域过滤
3.4 文本行生成
3.5 实验结果与分析
3.5.1 文本定位算法衡量标准
3.5.2 实验结果分析
3.6 本章小结
4 基于滑动卷积字符模型与LSTM的场景文本识别
4.1 滑动卷积字符模型
4.2 基于滑动卷积字符模型与LSTM的场景文本识别
4.2.1 预处理
4.2.2 基于CNN序列特征提取
4.2.3 基于LSTM上下文特征提取
4.2.4 基于CTC转录
4.2.5 模型训练
4.3 实验结果与分析
4.3.1 文本识别结果评价标准
4.3.2 结果分析
4.4 本章小结
5 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
攻读学位期间主要研究成果
本文编号:3149078
【文章来源】:西安理工大学陕西省
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 课题研究的背景与意义
1.2 相关领域的国内外研究现状
1.2.1 文本检测和识别技术面临挑战
1.2.2 场景文本定位研究现状
1.2.3 场景文本识别研究现状
1.3 本文的主要研究内容和论文安排
2 相关理论介绍
2.1 MSER原理介绍
2.2 卷积神经网络介绍
2.3 循环神经网络介绍
2.4 数据库介绍
2.4.1 ICDAR2013 数据集
2.4.2 MJSynth数据集
2.5 本章小结
3 基于MSER与多特征融合的场景文本定位
3.1 文本定位步骤
3.2 提取字符候选区域
3.3 伪字符区域过滤
3.3.1 候选区域预处理
3.3.2 HOG特征提取
3.3.3 LBP特征提取
3.3.4 CNN特征提取
3.3.5 基于SVM的伪字符区域过滤
3.4 文本行生成
3.5 实验结果与分析
3.5.1 文本定位算法衡量标准
3.5.2 实验结果分析
3.6 本章小结
4 基于滑动卷积字符模型与LSTM的场景文本识别
4.1 滑动卷积字符模型
4.2 基于滑动卷积字符模型与LSTM的场景文本识别
4.2.1 预处理
4.2.2 基于CNN序列特征提取
4.2.3 基于LSTM上下文特征提取
4.2.4 基于CTC转录
4.2.5 模型训练
4.3 实验结果与分析
4.3.1 文本识别结果评价标准
4.3.2 结果分析
4.4 本章小结
5 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
攻读学位期间主要研究成果
本文编号:3149078
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3149078.html