自然场景图像中的文本检测算法研究
发布时间:2021-07-03 22:53
文字作为高层语义信息是人类思想和感情表达的重要载体,包含非常有价值的信息,对于人们的日常生活是不可或缺的。随着互联网的发展以及智能手机、数码相机等移动终端的普及,海量的图像不断涌现出来,尤其是自然场景中的图像,其中的文本信息不仅是对场景的重要补充,也是场景理解非常重要的线索。因此,自然场景图像中的文本检测已经成为了近年的研究热点之一,其应用十分广泛,例如人机交互,图像搜索,工业自动化和车牌识别等等。对于传统的光学字符识别技术,已经有了相当成熟的解决方案,在处理文档文本方面取得了令人瞩目的成果。但是,由于文本的多样性、背景的复杂性以及其他外界因素的干扰,自然场景图像中的文本检测依然面临着诸多挑战。针对现有的自然场景文本检测算法准确率尚未理想的问题,从连通分量的提取与剪枝、连通区域的分类和多方向候选文本行的形成与分类三个方面进行算法的改进,提出了一种基于行特征和改进型卷积神经网络的文本检测算法。本文的主要工作和贡献具体如下:(1)采用增强的最大稳定极值区域得到连通分量,可以分割因模糊而相连的字符像素,以及字符连通域的孔洞。采用结合平滑度的剪枝操作将重复嵌套的最大稳定极值区域剪枝,得到孤立的...
【文章来源】:南京邮电大学江苏省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
传统的文档图像与场景图像
南京邮电大学硕士研究生学位论文 第三章 基于 MSER 的连通区域提取与剪枝基本没有变化或者变化很小,则认定这样的连通区域为最大稳定极值区域。对于最大稳定极值区域的具体定义,下一小节有详细的描述。上述步骤中选取的阈值从 0 到 255 逐渐递增,提取的黑色区域为极小值区域,即 MSER+区域,通常是由灰度值较小的连通分量组成,可以检测亮色背景中的暗文本区域。当阈值从 255 依次递减为 0,提取的白色区域为极大值区域,即 MSER-区域,通常是由灰度值较大的连通分量构成,检测的是暗色背景中的亮色文本区域。MSER+区域和 MSER-区域的并集才是最终提取的 MSER 区域的全部集合。(a) 灰度图像 I (b) t=0,I0为全白 (c) t=50,I50(d) t=100,I100
南京邮电大学硕士研究生学位论文 第三章 基于 MSER 的连通区域提取与剪枝MSER 检测算法与分水岭算法虽然本质上是相通的,但是还是有所区别,其不同之处在于输出的不同。分水岭算法寻找区域交汇时的水位,输出为一组互不相交的区域,区域即将交汇时的阈值通常并不稳定,且交汇后不再保存。而 MSER 检测算法是遍历全部阈值,寻找使区域面积相对稳定的阈值,输出为稳定连通区域的集合,当存在多个稳定阈值时,多个稳定连通区域可能相互嵌套。
【参考文献】:
期刊论文
[1]自然场景中多方向文本的检测[J]. 方承志,黄梅玲. 计算机工程与设计. 2018(05)
[2]基于色彩空间的最大稳定极值区域的自然场景文本检测[J]. 范一华,邓德祥,颜佳. 计算机应用. 2018(01)
[3]结合连通分量规则度与Adaboost的文本定位算法[J]. 方承志,田彪. 电视技术. 2015(21)
博士论文
[1]自然场景图像中的文字检测[D]. 孙雷.中国科学技术大学 2015
[2]自然图像中文字检测与识别研究[D]. 姚聪.华中科技大学 2014
硕士论文
[1]自然场景图像中的文字检测关键算法研究[D]. 田彪.南京邮电大学 2016
本文编号:3263509
【文章来源】:南京邮电大学江苏省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
传统的文档图像与场景图像
南京邮电大学硕士研究生学位论文 第三章 基于 MSER 的连通区域提取与剪枝基本没有变化或者变化很小,则认定这样的连通区域为最大稳定极值区域。对于最大稳定极值区域的具体定义,下一小节有详细的描述。上述步骤中选取的阈值从 0 到 255 逐渐递增,提取的黑色区域为极小值区域,即 MSER+区域,通常是由灰度值较小的连通分量组成,可以检测亮色背景中的暗文本区域。当阈值从 255 依次递减为 0,提取的白色区域为极大值区域,即 MSER-区域,通常是由灰度值较大的连通分量构成,检测的是暗色背景中的亮色文本区域。MSER+区域和 MSER-区域的并集才是最终提取的 MSER 区域的全部集合。(a) 灰度图像 I (b) t=0,I0为全白 (c) t=50,I50(d) t=100,I100
南京邮电大学硕士研究生学位论文 第三章 基于 MSER 的连通区域提取与剪枝MSER 检测算法与分水岭算法虽然本质上是相通的,但是还是有所区别,其不同之处在于输出的不同。分水岭算法寻找区域交汇时的水位,输出为一组互不相交的区域,区域即将交汇时的阈值通常并不稳定,且交汇后不再保存。而 MSER 检测算法是遍历全部阈值,寻找使区域面积相对稳定的阈值,输出为稳定连通区域的集合,当存在多个稳定阈值时,多个稳定连通区域可能相互嵌套。
【参考文献】:
期刊论文
[1]自然场景中多方向文本的检测[J]. 方承志,黄梅玲. 计算机工程与设计. 2018(05)
[2]基于色彩空间的最大稳定极值区域的自然场景文本检测[J]. 范一华,邓德祥,颜佳. 计算机应用. 2018(01)
[3]结合连通分量规则度与Adaboost的文本定位算法[J]. 方承志,田彪. 电视技术. 2015(21)
博士论文
[1]自然场景图像中的文字检测[D]. 孙雷.中国科学技术大学 2015
[2]自然图像中文字检测与识别研究[D]. 姚聪.华中科技大学 2014
硕士论文
[1]自然场景图像中的文字检测关键算法研究[D]. 田彪.南京邮电大学 2016
本文编号:3263509
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3263509.html
最近更新
教材专著