基于单元组合的场景图片文字检测
发布时间:2021-04-20 14:06
近年来,研究者提出了很多场景文字检测方法,在多方向场景文字检测数据集上取得了很不错的结果。然而,这些方法很难检测广泛存在于商品图片中的曲形密集文本。为了更好地检测商品图片中的文字,在本硕士学位论文中,我们提出了一种区域实例敏感的基于单元组合的场景图片文字检测框架(ICG)。这是一个灵活的自下而上的文本检测框架,能够检测任意形状的密集文字。为了解决大多数自下而上的方法中存在的很难区分空间距离近的文本区域的问题,我们提出了文字单元之间单元排斥关系和吸引关系的表征。在网络训练的过程中引入这一可学习的文字单元关系的表征能够让网络更加关注空间距离近的文本区域。另外,我们还提出了一种区域实例敏感的损失函数,能够在网络训练过程充分利用图片中的上下文信息。最后基于学到的文字单元之间单元的吸引关系和排斥关系,我们利用一种改进的最小生成树算法得到所有的文字单元组,最后根据这些文字单元组提取文字区域的外接检测框。为了证明ICG在检测场景图片中的文字特别是商品图片中的文字的有效性,我们引入了一个由商品图片组成的包含大量任意形状密集文本的文字检测数据集(DAST1500)。实验证明,ICG在任意形状商品密集行数...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景和意义
1.2 研究的内容
1.3 研究的创新点
1.4 论文的结构安排
2 国内外研究现状
2.1 传统的场景文字检测
2.2 基于深度学习的场景文字检测
2.2.1 自上而下的场景文字检测
2.2.2 自下而上的场景文字检测
2.3 本文提出的方法和其他方法的对比
3 文字检测框架
3.1 方法概览
3.2 文字区域实例敏感的单元组合的文字检测框架
3.2.1 基于单元之间吸引排斥关系的单元组合
3.2.2 基于文字区域实例敏感的损失函数的网络训练
3.3 深度神经网络框架
3.3.1 文字单元的提取
3.3.2 单元之间吸引关系和排斥关系的估计
3.4 深度神经网络训练标签的生成
3.5 深度神经网络优化
3.5.1 损失函数
3.5.2 在线困难负样本挖掘
3.6 深度神经网络推理与后处理
3.6.1 基于改动版最小生成树算法的文字单元组合
3.6.2 文字区域外接检测框提取
3.6.3 文字区域检测框的非极大值抑制(polygon NMS)
4 实验验证
4.1 数据集和评测方法介绍
4.1.1 DAST1500数据集
4.1.2 MTWI网络图片数据集
4.1.3 SynthText合成数据集
4.1.4 ICDAR15数据集
4.1.5 SCUT-CTW1500数据集
4.1.6 TotalText数据集
4.1.7 评测方法
4.2 实验细节
4.3 DAST1500上的实验
4.3.1 对比实验
4.3.2 和其他方法的对比
4.4 MTWI上的实验
4.5 其他数据集上实验
4.5.1 多方向文字检测数据集ICDAR15
4.5.2 曲形文字检测数据集SCUT-CTW
4.5.3 曲形文字检测数据集TotalText
4.6 效率分析
4.7 方法的局限性
5 结论与展望
致谢
参考文献
攻读硕士学位论文期间发表的论文
本文编号:3149823
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景和意义
1.2 研究的内容
1.3 研究的创新点
1.4 论文的结构安排
2 国内外研究现状
2.1 传统的场景文字检测
2.2 基于深度学习的场景文字检测
2.2.1 自上而下的场景文字检测
2.2.2 自下而上的场景文字检测
2.3 本文提出的方法和其他方法的对比
3 文字检测框架
3.1 方法概览
3.2 文字区域实例敏感的单元组合的文字检测框架
3.2.1 基于单元之间吸引排斥关系的单元组合
3.2.2 基于文字区域实例敏感的损失函数的网络训练
3.3 深度神经网络框架
3.3.1 文字单元的提取
3.3.2 单元之间吸引关系和排斥关系的估计
3.4 深度神经网络训练标签的生成
3.5 深度神经网络优化
3.5.1 损失函数
3.5.2 在线困难负样本挖掘
3.6 深度神经网络推理与后处理
3.6.1 基于改动版最小生成树算法的文字单元组合
3.6.2 文字区域外接检测框提取
3.6.3 文字区域检测框的非极大值抑制(polygon NMS)
4 实验验证
4.1 数据集和评测方法介绍
4.1.1 DAST1500数据集
4.1.2 MTWI网络图片数据集
4.1.3 SynthText合成数据集
4.1.4 ICDAR15数据集
4.1.5 SCUT-CTW1500数据集
4.1.6 TotalText数据集
4.1.7 评测方法
4.2 实验细节
4.3 DAST1500上的实验
4.3.1 对比实验
4.3.2 和其他方法的对比
4.4 MTWI上的实验
4.5 其他数据集上实验
4.5.1 多方向文字检测数据集ICDAR15
4.5.2 曲形文字检测数据集SCUT-CTW
4.5.3 曲形文字检测数据集TotalText
4.6 效率分析
4.7 方法的局限性
5 结论与展望
致谢
参考文献
攻读硕士学位论文期间发表的论文
本文编号:3149823
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3149823.html
最近更新
教材专著