自然场景图像下文本检测的研究

发布时间：2023-02-19 13:55

　　自然场景图像中的文本可以简洁地表达丰富的信息,帮助人们更好地理解场景,因此对自然场景图像进行文本检测是一项非常有价值的研究课题。本文以ICDAR-2013的聚焦场景数据集以及ICDAR-2015的偶然场景数据集为研究对象,分别对基于最大稳定极值区域的文本检测算法和基于深度学习的文本检测算法进行了研究,论文的主要工作如下:首先,针对基于最大稳定极值区域的文本检测算法中,支持向量机结合方向梯度直方图特征对候选字符区域分类精度不够的问题,提出基于最大稳定极值区域与残差网络结合的文本检测算法,使用残差网络ResNet-18对候选字符区域进行分类,取得了更好的字符分类精度和文本检测结果。其次,针对文本区域是任意四边形描述,使得通用目标检测网络single shot d etector的学习方法不再适合文本检测任务的问题,使用顶点回归的学习方法直接预测默认框四个顶点坐标的绝对差量,并提出基于曼哈顿距离的区域空间相似度度量方法将网络训练迭代一次消耗在正负默认框判断上的时间由1分30秒减少到0.1秒,大幅提高了网络训练效率和文本检测的精度。然后,针对基于顶点回归与曼哈顿距离度量的文本检测网络对竖向文本...

【文章页数】：71 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文的主要工作
    1.4 论文的组织结构
2 基于最大稳定极值区域与残差网络的文本检测算法
    2.1 引言
    2.2 基于最大稳定极值区域与残差网络的文本检测算法
    2.3 实验结果与分析
    2.4 本章小结
3 基于顶点回归与曼哈顿距离度量的文本检测网络
    3.1 引言
    3.2 基于顶点回归与曼哈顿距离度量的文本检测网络
    3.3 实验结果与分析
    3.4 本章小结
4 基于多核旋转模块的文本检测网络
    4.1 引言
    4.2 基于多核旋转模块的文本检测网络
    4.3 实验结果与分析
    4.4 本章小结
5 基于多任务学习的文本检测网络
    5.1 引言
    5.2 基于多任务学习的文本检测网络
    5.3 实验结果与分析
    5.4 本章小结
6 总结与展望
    6.1 总结
    6.2 展望
致谢
参考文献
发表论文和参加科研情况说明

本文编号：3746346

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3746346.html

上一篇：面向精细视觉理解的深度渐进学习研究
下一篇：基于注意力机制的可视化自动问答算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|