基于深度神经网络的形变中文文档矫正研究
发布时间:2022-01-20 21:40
文档图像处理在办公自动化、数字化图书馆、工业自动化等领域具有广泛的应用。与扫描仪相比,数字相机成本低、操作方便、普及率高。当文档表面发生弯曲时,容易造成图像不同程度的畸变,导致字符识别率下降,因此有必要对文档图像进行矫正,以提高文档图像中字符的识别率。本文针对手持相机拍摄的表面自然弯曲的中文印刷体文档图像,提出一种利用深度神经网络估计形变参数的矫正算法。文中假设,拍摄时书本处于展开平放状态,利用深度神经网络同时估计出书本的多项式形变参数和相机姿态参数,进而实现对畸变图像的矫正。本文的主要工作如下:(1)针对最常见的应用场景,本文主要研究自然打开且水平放置的书籍造成的文档表面的弯曲,并采取三次多项式对其进行拟合。首先,在文档中选取连续数行以汉字为主的字符,并将这些字符的归一化坐标作为深度神经网络的输入,同时以与之对应的形变多项式系数和相机姿态参数作为输出。然后,基于透视投影原理自动生成附加扰动的训练样本,经过训练,深度神经网络能够根据归一化字符坐标估计出弯曲文档形变系数和相机姿态参数。本文分别对无形变文档图像和有形变文档图像进行了研究,都得到了理想的结果。(2)为确定字符位置,首先采用最...
【文章来源】:青岛理工大学山东省
【文章页数】:100 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 平面文档变形矫正
1.2.2 扭曲文档变形矫正
1.3 本文的主要工作与内容安排
第2章 字符定位与预处理
2.1 字符定位算法
2.1.1 mser算法定义
2.1.2 mser算法实现
2.1.3 非极大值抑制算法
2.1.4 字符合并及定位结果
2.2 字符分类算法
2.2.1 支持向量机简介
2.2.2 字符特征提取
2.2.3 svm训练样本生成
2.2.4 分类实验结果及分析
2.3 字符定位结果预处理
2.3.1 行索引信息添加
2.3.2 字符间距调整
2.3.3 字符补全
2.4 本章小结
第3章 基于深度神经网络的矫正
3.1 矫正算法
3.1.1 平面文档逆向矫正
3.1.2 扭曲文档逆向矫正
3.2 深度神经网络
3.2.1 深度神经网络简介
3.2.2 keras介绍
3.2.3 参数选取
3.3 深度神经网络数据集生成
3.3.1 透视投影原理
3.3.2 平面文档深度神经网络数据集
3.3.3 扭曲文档深度神经网络数据集
3.4 深度神经网络训练
3.4.1 平面文档深度神经网络
3.4.2 扭曲文档深度神经网络
3.5 深度神经网络测试
3.5.1 平面文档参数估计和鲁棒性测试
3.5.2 扭曲文档参数估计和鲁棒性测试
3.6 本章小结
第4章 实验结果与分析
4.1 测试方案
4.2 矫正结果及分析
4.3 本章小结
第5章 总结与展望
5.1 论文总结
5.2 研究展望
参考文献
攻读硕士学位期间发表的学术论文及科研工作
致谢
【参考文献】:
期刊论文
[1]一种多尺度时频纹理特征融合的场景分类算法[J]. 史静,朱虹,邢楠,韩勇,杜森. 仪器仪表学报. 2016(10)
[2]多层次MSER自然场景文本检测[J]. 唐有宝,卜巍,邬向前. 浙江大学学报(工学版). 2016(06)
[3]一种改进约束条件的简化非极大值抑制[J]. 张强,张陈斌,陈宗海. 中国科学技术大学学报. 2016(01)
[4]关于统计学习理论与支持向量机[J]. 张学工. 自动化学报. 2000(01)
硕士论文
[1]自然场景的中文文本定位技术研究[D]. 陈健.华南理工大学 2015
[2]基于Gabor特征与SVM的汉字识别系统研究与实现[D]. 戴维.上海交通大学 2009
[3]支持向量机分类算法研究与应用[D]. 彭璐.湖南大学 2007
本文编号:3599565
【文章来源】:青岛理工大学山东省
【文章页数】:100 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 平面文档变形矫正
1.2.2 扭曲文档变形矫正
1.3 本文的主要工作与内容安排
第2章 字符定位与预处理
2.1 字符定位算法
2.1.1 mser算法定义
2.1.2 mser算法实现
2.1.3 非极大值抑制算法
2.1.4 字符合并及定位结果
2.2 字符分类算法
2.2.1 支持向量机简介
2.2.2 字符特征提取
2.2.3 svm训练样本生成
2.2.4 分类实验结果及分析
2.3 字符定位结果预处理
2.3.1 行索引信息添加
2.3.2 字符间距调整
2.3.3 字符补全
2.4 本章小结
第3章 基于深度神经网络的矫正
3.1 矫正算法
3.1.1 平面文档逆向矫正
3.1.2 扭曲文档逆向矫正
3.2 深度神经网络
3.2.1 深度神经网络简介
3.2.2 keras介绍
3.2.3 参数选取
3.3 深度神经网络数据集生成
3.3.1 透视投影原理
3.3.2 平面文档深度神经网络数据集
3.3.3 扭曲文档深度神经网络数据集
3.4 深度神经网络训练
3.4.1 平面文档深度神经网络
3.4.2 扭曲文档深度神经网络
3.5 深度神经网络测试
3.5.1 平面文档参数估计和鲁棒性测试
3.5.2 扭曲文档参数估计和鲁棒性测试
3.6 本章小结
第4章 实验结果与分析
4.1 测试方案
4.2 矫正结果及分析
4.3 本章小结
第5章 总结与展望
5.1 论文总结
5.2 研究展望
参考文献
攻读硕士学位期间发表的学术论文及科研工作
致谢
【参考文献】:
期刊论文
[1]一种多尺度时频纹理特征融合的场景分类算法[J]. 史静,朱虹,邢楠,韩勇,杜森. 仪器仪表学报. 2016(10)
[2]多层次MSER自然场景文本检测[J]. 唐有宝,卜巍,邬向前. 浙江大学学报(工学版). 2016(06)
[3]一种改进约束条件的简化非极大值抑制[J]. 张强,张陈斌,陈宗海. 中国科学技术大学学报. 2016(01)
[4]关于统计学习理论与支持向量机[J]. 张学工. 自动化学报. 2000(01)
硕士论文
[1]自然场景的中文文本定位技术研究[D]. 陈健.华南理工大学 2015
[2]基于Gabor特征与SVM的汉字识别系统研究与实现[D]. 戴维.上海交通大学 2009
[3]支持向量机分类算法研究与应用[D]. 彭璐.湖南大学 2007
本文编号:3599565
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3599565.html