自然场景图像下文本检测的研究

发布时间:2023-02-19 13:55
  自然场景图像中的文本可以简洁地表达丰富的信息,帮助人们更好地理解场景,因此对自然场景图像进行文本检测是一项非常有价值的研究课题。本文以ICDAR-2013的聚焦场景数据集以及ICDAR-2015的偶然场景数据集为研究对象,分别对基于最大稳定极值区域的文本检测算法和基于深度学习的文本检测算法进行了研究,论文的主要工作如下:首先,针对基于最大稳定极值区域的文本检测算法中,支持向量机结合方向梯度直方图特征对候选字符区域分类精度不够的问题,提出基于最大稳定极值区域与残差网络结合的文本检测算法,使用残差网络ResNet-18对候选字符区域进行分类,取得了更好的字符分类精度和文本检测结果。其次,针对文本区域是任意四边形描述,使得通用目标检测网络single shot d etector的学习方法不再适合文本检测任务的问题,使用顶点回归的学习方法直接预测默认框四个顶点坐标的绝对差量,并提出基于曼哈顿距离的区域空间相似度度量方法将网络训练迭代一次消耗在正负默认框判断上的时间由1分30秒减少到0.1秒,大幅提高了网络训练效率和文本检测的精度。然后,针对基于顶点回归与曼哈顿距离度量的文本检测网络对竖向文本...

【文章页数】:71 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文的主要工作
    1.4 论文的组织结构
2 基于最大稳定极值区域与残差网络的文本检测算法
    2.1 引言
    2.2 基于最大稳定极值区域与残差网络的文本检测算法
    2.3 实验结果与分析
    2.4 本章小结
3 基于顶点回归与曼哈顿距离度量的文本检测网络
    3.1 引言
    3.2 基于顶点回归与曼哈顿距离度量的文本检测网络
    3.3 实验结果与分析
    3.4 本章小结
4 基于多核旋转模块的文本检测网络
    4.1 引言
    4.2 基于多核旋转模块的文本检测网络
    4.3 实验结果与分析
    4.4 本章小结
5 基于多任务学习的文本检测网络
    5.1 引言
    5.2 基于多任务学习的文本检测网络
    5.3 实验结果与分析
    5.4 本章小结
6 总结与展望
    6.1 总结
    6.2 展望
致谢
参考文献
发表论文和参加科研情况说明



本文编号:3746346

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3746346.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a9984***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com