基于深度学习的票据文本定位与识别研究
发布时间:2021-05-12 08:33
随着物质和精神生活的日益丰富,人们在很多生活场景中会使用到包括购物、餐饮和交通在内的各种类型票据。然而在票据信息审核和财务报销等流程中,处理海量的票据信息对财务人员来说是一项繁琐且重复的工作。近年来,基于深度学习的文本定位和识别已经成为热门的研究课题。利用文本定位和识别技术,准确快速地自动定位识别票据上的文本,对于解放人力,提高企业效率具有极其重要的意义。大多数经扫描的票据图像上的文本特征较差,文字字体各异、尺寸不同且行间分布密集,伴有印章以及形似文字的区域等噪声干扰。某些票据由于印刷质量等原因,会出现模糊不清的文本。在文本定位时,由于票据文字与普通目标检测对象在特征上有较大差异,一般目标检测方法在票据的文本密集区域很容易定位到目标文本行的上下相邻行。另外,如果文本定位结果框对文字包含不够紧密,定位到的非文本区域会给后续识别带来困难。在文本识别时,训练数据与票据特征差异太大会导致模型得到较低的识别率,需要结合票据文本特征进行数据增强。针对上述问题,本文的主要工作有:(1)针对基于边界框回归的文本定位方法在文本密集区域容易出现定位结果重叠、精确度不够的缺点,提出了面向密集文本定位的DTL...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:76 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
ABSTRACT
1 引言
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 文本定位研究现状
1.2.2 文本识别研究现状
1.3 论文主要研究工作
1.4 论文框架结构
2 相关工作介绍
2.1 文本定位相关工作
2.1.1 自底向上的传统文本定位方法
2.1.2 基于语义分割的文本定位方法
2.1.3 基于边界框回归的文本定位方法
2.2 文本识别相关工作
2.2.1 基于文本行切分的文本识别方法
2.2.2 基于上下文关系的序列化文本识别方法
2.3 小结
3 基于DTLN的票据文本定位研究
3.1 票据文本定位问题分析与解决思路
3.2 票据图像预处理
3.2.1 基于RGB通道和几何形状的印章去除
3.2.2 图像对比度拉伸
3.3 DTLN模型框架
3.3.1 网络结构
3.3.2 损失函数
3.4 基于CMax-OMin的Anchor样本选择策略
3.5 后处理和边界框回归修正
3.5.1 后处理
3.5.2 基于边界框回归的文本结果框修正
3.6 实验结果与分析
3.6.1 数据集与实验细节
3.6.2 票据数据集上的文本定位结果分析
3.6.3 场景文本数据集上的文本定位结果分析
3.6.4 实验结果深入分析
3.7 小结
4 基于深度神经网络的票据文本识别研究
4.1 基于序列化上下文信息的票据文本识别
4.1.1 DenseNet模型
4.1.2 基于BLSTM的序列化上下文信息融合
4.1.3 CTC损失函数
4.2 票据文本识别数据集设计与生成
4.3 实验结果与分析
4.3.1 数据集与评价指标
4.3.2 识别结果评价与分析
4.4 小结
5 票据文本定位与识别系统设计
5.1 系统开发环境
5.2 系统模块设计
5.3 系统演示
5.4 小结
6 总结与展望
6.1 本文工作总结
6.2 未来工作展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集
【参考文献】:
期刊论文
[1]基于SVM的车牌识别技术研究[J]. 李良荣,荣耀祖,顾平,李震. 贵州大学学报(自然科学版). 2018(05)
[2]基于笔画角度变换和宽度特征的自然场景文本检测[J]. 陈硕,郑建彬,詹恩奇,汪阳. 计算机应用研究. 2019(04)
[3]基于模板匹配和垂直投影的车牌字符分割算法[J]. 崔文学,崔义川,王朝晖,巩亮琴,刘明,谭畅. 齐齐哈尔大学学报(自然科学版). 2015(06)
硕士论文
[1]基于MSER的自然场景文本定位算法研究[D]. 付程琳.西安科技大学 2017
本文编号:3183095
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:76 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
ABSTRACT
1 引言
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 文本定位研究现状
1.2.2 文本识别研究现状
1.3 论文主要研究工作
1.4 论文框架结构
2 相关工作介绍
2.1 文本定位相关工作
2.1.1 自底向上的传统文本定位方法
2.1.2 基于语义分割的文本定位方法
2.1.3 基于边界框回归的文本定位方法
2.2 文本识别相关工作
2.2.1 基于文本行切分的文本识别方法
2.2.2 基于上下文关系的序列化文本识别方法
2.3 小结
3 基于DTLN的票据文本定位研究
3.1 票据文本定位问题分析与解决思路
3.2 票据图像预处理
3.2.1 基于RGB通道和几何形状的印章去除
3.2.2 图像对比度拉伸
3.3 DTLN模型框架
3.3.1 网络结构
3.3.2 损失函数
3.4 基于CMax-OMin的Anchor样本选择策略
3.5 后处理和边界框回归修正
3.5.1 后处理
3.5.2 基于边界框回归的文本结果框修正
3.6 实验结果与分析
3.6.1 数据集与实验细节
3.6.2 票据数据集上的文本定位结果分析
3.6.3 场景文本数据集上的文本定位结果分析
3.6.4 实验结果深入分析
3.7 小结
4 基于深度神经网络的票据文本识别研究
4.1 基于序列化上下文信息的票据文本识别
4.1.1 DenseNet模型
4.1.2 基于BLSTM的序列化上下文信息融合
4.1.3 CTC损失函数
4.2 票据文本识别数据集设计与生成
4.3 实验结果与分析
4.3.1 数据集与评价指标
4.3.2 识别结果评价与分析
4.4 小结
5 票据文本定位与识别系统设计
5.1 系统开发环境
5.2 系统模块设计
5.3 系统演示
5.4 小结
6 总结与展望
6.1 本文工作总结
6.2 未来工作展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集
【参考文献】:
期刊论文
[1]基于SVM的车牌识别技术研究[J]. 李良荣,荣耀祖,顾平,李震. 贵州大学学报(自然科学版). 2018(05)
[2]基于笔画角度变换和宽度特征的自然场景文本检测[J]. 陈硕,郑建彬,詹恩奇,汪阳. 计算机应用研究. 2019(04)
[3]基于模板匹配和垂直投影的车牌字符分割算法[J]. 崔文学,崔义川,王朝晖,巩亮琴,刘明,谭畅. 齐齐哈尔大学学报(自然科学版). 2015(06)
硕士论文
[1]基于MSER的自然场景文本定位算法研究[D]. 付程琳.西安科技大学 2017
本文编号:3183095
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3183095.html
最近更新
教材专著