基于深度学习的场景文字检测算法的融合技术研究
发布时间:2021-01-18 03:32
随着各种数码摄像机、智能手机的普及,每天都在产生着大量的图像与视频数据,这些海量的图像、视频资源为场景文本检测方向的研究人员提供了大量的训练数据。文本检测是计算机视觉中的一个重要分支方向,人们通过该技术可以提取图像、视频中的文本信息,并将这些技术应用于人们的生活中。本文的研究对象是基于深度学习的自然场景文本检测算法,可以应用于银行系统中的票据检测及票据识别任务,也可以应用在帮助网警自动识别出敏感词汇上,维护网络安全。银行系统中的故障截图,可以通过文本检测算法检测出故障单中的文字,从而提高文本识别率,最终提高案例库的搜索能力。但自然场景中的图像通常存在着光照不均匀,文字被遮挡,文字大小不统一,字体各式各样等问题,这些问题增加了场景文字检测的难度。经过逾十年的研究,人们已提出多种自然场景文本检测算法,但是由于数据集的不同,很多算法都无法保证在不同数据集上的检测效果具有很好的泛化能力。本文对自然场景下的文本检测任务进行了深入的理解和研究,主要工作包括以下三个方面,首先,收集并标注中文场景图像数据集(ShopSign)。其次,设计基于特征融合的场景文本检测算法。最后,设计融合异构方法检测结果的...
【文章来源】:河南大学河南省
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
本文论文章节结构图
2.1.1 ICDAR2013 数据集ICDAR2013 Focused Scene Text[37],这个竞赛所研究的特定场景是聚焦文本,拍摄者在拍摄图片时,会将摄像机的焦点对准感兴趣的文本内容进行拍摄。这就是聚焦文本,这也是文本阅读和文本翻译应用程序的典型场景。ICDAR2013 数据集包含 462 张自然场景文本图像,包括 229 张训练集图片和 233 张测试集图片,且图片中的文本均为英文。这些图像通常以文本为特征,焦点好,图像中的文本较为清晰,并且图像文本是水平的。同时该数据集包含了多种场景的文本图片,例如:商铺标牌,文字被部分遮挡的图片,强光下的文字图片等。ICDAR2013 的数据集标注格式如下图所示,标注文本中显示图片中文本行的左上,右下角坐标(x1,y1,x2,y2)还有文本行内容。目前ICDAR2013 数据集被多次用于自然场景文本检测算法的训练与识别中,同时,也是文本检测算法检验算法性能的常用数据集。ICDAR2013 数据集中的图像以及图像标注信息如下图 2-1[37]所示。
图 2-2 ICDAR2015 数据集的图像示例[38]2.1.3 MSRA-TD500 数据集MSRA-TD500[40]数据集是多方向文本检测、文本大部分都在标识牌上、分辨率在1296*864 到 1920*1280 之间,文本内容为中文和英文,总共 500 张自然场景图片训练集300 张图片,测试集 200 张图片,文本以行为单位标注,而不是以单词标注,每张图片上所有的字都会被标注上。为了解决文本检测算法难以处理的困难文本(太小、遮挡、模糊或截断)的问题,每一个被认为是困难的文本都被赋予一个额外的“困难”标签,若文本困难,则标签为‘1’,否则标签为‘0’。MSRA-TD500 数据集的标注格式与 ICDAR2013,ICDAR2015 数据集的标注格式不一样,MSRA-TD500 数据集主要是针对多方向场景文本检测任务而整理的,文本标注方式为包围文本行的矩形框的左上点坐标和矩形框的宽高,还有矩形框的旋转角度,以矩形框的左上角坐标为起始点记录文本区域的索引、是否困难(0/1)、左上点、右下点、旋转角度。下图 2-3[40]是示例图像:
本文编号:2984188
【文章来源】:河南大学河南省
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
本文论文章节结构图
2.1.1 ICDAR2013 数据集ICDAR2013 Focused Scene Text[37],这个竞赛所研究的特定场景是聚焦文本,拍摄者在拍摄图片时,会将摄像机的焦点对准感兴趣的文本内容进行拍摄。这就是聚焦文本,这也是文本阅读和文本翻译应用程序的典型场景。ICDAR2013 数据集包含 462 张自然场景文本图像,包括 229 张训练集图片和 233 张测试集图片,且图片中的文本均为英文。这些图像通常以文本为特征,焦点好,图像中的文本较为清晰,并且图像文本是水平的。同时该数据集包含了多种场景的文本图片,例如:商铺标牌,文字被部分遮挡的图片,强光下的文字图片等。ICDAR2013 的数据集标注格式如下图所示,标注文本中显示图片中文本行的左上,右下角坐标(x1,y1,x2,y2)还有文本行内容。目前ICDAR2013 数据集被多次用于自然场景文本检测算法的训练与识别中,同时,也是文本检测算法检验算法性能的常用数据集。ICDAR2013 数据集中的图像以及图像标注信息如下图 2-1[37]所示。
图 2-2 ICDAR2015 数据集的图像示例[38]2.1.3 MSRA-TD500 数据集MSRA-TD500[40]数据集是多方向文本检测、文本大部分都在标识牌上、分辨率在1296*864 到 1920*1280 之间,文本内容为中文和英文,总共 500 张自然场景图片训练集300 张图片,测试集 200 张图片,文本以行为单位标注,而不是以单词标注,每张图片上所有的字都会被标注上。为了解决文本检测算法难以处理的困难文本(太小、遮挡、模糊或截断)的问题,每一个被认为是困难的文本都被赋予一个额外的“困难”标签,若文本困难,则标签为‘1’,否则标签为‘0’。MSRA-TD500 数据集的标注格式与 ICDAR2013,ICDAR2015 数据集的标注格式不一样,MSRA-TD500 数据集主要是针对多方向场景文本检测任务而整理的,文本标注方式为包围文本行的矩形框的左上点坐标和矩形框的宽高,还有矩形框的旋转角度,以矩形框的左上角坐标为起始点记录文本区域的索引、是否困难(0/1)、左上点、右下点、旋转角度。下图 2-3[40]是示例图像:
本文编号:2984188
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2984188.html