基于移动终端的自然场景文本定位与识别
发布时间:2021-12-19 05:55
随着移动终端尤其是具有拍照功能的智能手机广泛普及,使得人们能够轻易地捕获海量的自然场景图像。同时,伴随着深度学习和计算机视觉的飞速发展,自然场景文本定位与识别以及如何将现有神经网络模型经过压缩后移植到移动终端成为近些年的研究热点,这个方向的研究具有重要的理论意义和广泛的应用前景。本文以自然场景为研究背景,围绕如何从自然场景中高效地识别文本信息以及深度神经网络模型压缩展开研究,设计并实现了基于移动终端的自然场景文本识别系统。论文的主要内容如下:(1)在自然场景文本定位中,从目标检测问题出发,在研究和总结现阶段存在的优秀文本定位算法之后,本文设计了一种基于YOLO v3结构的文本定位算法,并与现有的CTPN算法进行了实验对比,实验结果表明YOLO算法在推理耗时-上比CTPN算法大幅减少,但在场景文本定位精度上前者比后者差。(2)针对自然场景文本识别问题,文本分析了一种由CNN和RNN组成的CRNN文本识别算法,通过模型的预训练及一系列的评价实验,结果表明CRNN在模型尺度较小的情况下能够胜任一般自然场景的文本识别任务。(3)对于深度神经网络模型压缩,本文首先剖析了现有网络模型移植到移动终端...
【文章来源】:宁夏大学宁夏回族自治区 211工程院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
图2-1网格单元??
Wei?Liu等人在2015年提出SSD模型,比YOLO?v丨的检测速度更快。SSD采用全卷积网络??结构,利用VGG16网络中的前5层进行特征提取,后面新增了卷积层来获得更多的特征图以用??于检测,网络结构如图2-2所示。??Extra?Feature?Layers??VGG-16?i??\广_?throughPoojSjajref^?—?c〇nv?3?3??(3?(a松??\?\?、、?\?\?x?Oassrtwf:?Conv?3x3x(6x(aasses>4))???赛??-i?、r?_Yr、i?1?v^kv-?—i?|??§?-?i?-?:?-?-??I?C?w4_3?ConA?Con,??10?¥?CamViJ?M?£??__J?_**?Ca???2?;?\?V??*■?O?S?j??^1??Conv?3?3?1024?Conv?1*1m1024?C?tv?1*1x2S6?Conv?1*1*128?Cow?1x1x128?Avg?Poofcnfl?Global??Conv?3*3x512?*2?Conv?3*3k256-s2?Corw?3x3x2S6-s2??图2-2?SSD网络结构图??为了解决YOLO?vl对于小目标检测问题,SSD从不同尺寸的特征图产生预测。尺寸较大的??特征图负责检测相对较小的目标,尺寸较小的特征图负贵检测相对较大的冃标。与YOLO?v丨最??后采取全连接层不同,SSD直接在不同尺寸的特征图上使用卷积进行检测,对于mxnxp的特征??图,只需要用3?x?3?x?P的卷积核得到检测值,YOLO?v2和YOLO?v3也采用了这一方法。??在YOLO中
mK?mgr??=J?i?0??t-「T?\??图2-3?SVT数据集??Street?View?Text?(SVT)数据集包含从谷歌街景中获取的349幅图片,其中100张图片作为训??练集,其余作为测试集。这些数据中的图像文本显示出高变异性,通常分辨率较低。数据集中的??图像文本通常来自Google街景中的商业标识,商业标识很容易通过地理信息搜索的到。这些因??素使得SVT数据集特别适合在自然场景中进行文本定位。??mm??图2-4?Tota卜Text数据集??Total-Text数据集比现有文本数据集更全面,全部由1555幅图像组成,具有3种以上不同的??文本方向:水平方向、多方向和弯曲方向。与COCO-Text数据集相比,COCO-Text中每张文本实??例为2.73,且只包含水平文本和多尺度文本。相反,Total-Text数据集中每张文本实例为7.73,其??不仅包含水平文本和多尺度文本,还加入了扭曲文本,该数据集主要负责文本定位任务。??-12?-??
【参考文献】:
期刊论文
[1]图像中的文本定位技术研究综述[J]. 晋瑾,平西建,张涛,陈明贵. 计算机应用研究. 2007(06)
本文编号:3543883
【文章来源】:宁夏大学宁夏回族自治区 211工程院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
图2-1网格单元??
Wei?Liu等人在2015年提出SSD模型,比YOLO?v丨的检测速度更快。SSD采用全卷积网络??结构,利用VGG16网络中的前5层进行特征提取,后面新增了卷积层来获得更多的特征图以用??于检测,网络结构如图2-2所示。??Extra?Feature?Layers??VGG-16?i??\广_?throughPoojSjajref^?—?c〇nv?3?3??(3?(a松??\?\?、、?\?\?x?Oassrtwf:?Conv?3x3x(6x(aasses>4))???赛??-i?、r?_Yr、i?1?v^kv-?—i?|??§?-?i?-?:?-?-??I?C?w4_3?ConA?Con,??10?¥?CamViJ?M?£??__J?_**?Ca???2?;?\?V??*■?O?S?j??^1??Conv?3?3?1024?Conv?1*1m1024?C?tv?1*1x2S6?Conv?1*1*128?Cow?1x1x128?Avg?Poofcnfl?Global??Conv?3*3x512?*2?Conv?3*3k256-s2?Corw?3x3x2S6-s2??图2-2?SSD网络结构图??为了解决YOLO?vl对于小目标检测问题,SSD从不同尺寸的特征图产生预测。尺寸较大的??特征图负责检测相对较小的目标,尺寸较小的特征图负贵检测相对较大的冃标。与YOLO?v丨最??后采取全连接层不同,SSD直接在不同尺寸的特征图上使用卷积进行检测,对于mxnxp的特征??图,只需要用3?x?3?x?P的卷积核得到检测值,YOLO?v2和YOLO?v3也采用了这一方法。??在YOLO中
mK?mgr??=J?i?0??t-「T?\??图2-3?SVT数据集??Street?View?Text?(SVT)数据集包含从谷歌街景中获取的349幅图片,其中100张图片作为训??练集,其余作为测试集。这些数据中的图像文本显示出高变异性,通常分辨率较低。数据集中的??图像文本通常来自Google街景中的商业标识,商业标识很容易通过地理信息搜索的到。这些因??素使得SVT数据集特别适合在自然场景中进行文本定位。??mm??图2-4?Tota卜Text数据集??Total-Text数据集比现有文本数据集更全面,全部由1555幅图像组成,具有3种以上不同的??文本方向:水平方向、多方向和弯曲方向。与COCO-Text数据集相比,COCO-Text中每张文本实??例为2.73,且只包含水平文本和多尺度文本。相反,Total-Text数据集中每张文本实例为7.73,其??不仅包含水平文本和多尺度文本,还加入了扭曲文本,该数据集主要负责文本定位任务。??-12?-??
【参考文献】:
期刊论文
[1]图像中的文本定位技术研究综述[J]. 晋瑾,平西建,张涛,陈明贵. 计算机应用研究. 2007(06)
本文编号:3543883
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3543883.html
最近更新
教材专著