基于Linux平台的图片文字识别系统
第 1 章 绪论
1.1 研究背景及意义
图片文字识别(OCR),应用场景非常广泛[1]。随着信息时代的来临,各种知识、书籍、档案等都面临着数字化的需求。而图片存储是个笨重的途径,而且占用空间巨大,并且不方便查找等操作。因此以文档方式存储就面临着巨大的录入工作。这项工程当然要使用计算机的帮助,这就是 OCR 的典型应用了。市面上流行的各种扫描仪几乎都会附带着 OCR 识别程序。OCR 程序广泛使用于印刷、打印等行业[2]。是这些行业支柱软件。简单的 OCR 识别应用例如车牌号码的识别,可以省去大量的人力、物力。车牌号码的识别由于识别内容相对固定,识别准确率会高一些。复杂的例如对图形、图表混编的复杂版面识别,对各种报表的识别。如应用在工商行业、数据分析等行业。OCR 应用对古籍的保护和推广也具有重大意义。OCR最广泛的还是应用于印刷体文字的识别,对手写文字的识别相对更困难一些,常见的对手写体识别是手机手写输入。这些应用只占一小部分,但是却极大的改善了人们的日常生活。在未来如果 OCR 程序的识别率达到一个可接受的范围,可以替代手工输入,将给录入工作带来革命性的跨越。比较有名的开源 OCR 程序有 Tesseract、Gocr 等程序,Tesseract 最先由 HP公司开发,后经 Google 改进优化,是比较优秀的开源 OCR 程序[3]。 Gocr 是由Joerg Schulenburg 等人开发的开源 OCR 程序,该程序不能够识别汉字,识别英文的效果比较好[4]。国外的程序普遍对汉字的识别效果不佳。国内 OCR 做的比较好的程序有清华文通、汉王、尚书等。OCR 文字识别是一个复杂的系统,最直接表现为识别率是否能够可用,可用的标准是识别率。如果一个差的识别率,用起来倒给使用者增添烦恼,比如 DNA 图片序列的识别,如果识别不准确,想人工去校正将是一个痛苦的工作。而本身 DNA 序列是不能容忍错误的。
...........
1.2 文字识别现状
当前的文字识别系统已经取得了不错的成绩,尤其是对英文的识别,但是汉字的识别仍然是具有难度和挑战的[5]。使用上面提到的文字识别,也会经常发现有识别不出来的文字,或者识别错误的情况。可以说现在的图片文字识别还处于一个发展阶段,文字识别的关键点还是看怎样去扫描出文字的特征码来。当前有以下几种文字特征码扫描方法[6]。关键背景法是在文字的背景上选择两个关键点,分别从关键点出发对上下左右引出射线,分别记录和文字的交叉次数,然后这些交叉次数作为该文字的特征码,很明显该算法的关键点的寻找不是一件容易的事情。并且文字的一些为了美观的小勾小叉等将影响算法的准确性。模板匹配法是将每一个文字的标准图片存储起来,当需要进行识别时,将待识别的文字和模板进行匹配,找出像素重合最多的模板。该方法运算量大,图片存储耗费巨大,,查询速度慢,是一种比较被动的方法。基于统计特征的粗分类包含了几个小的子方法,例如汉字复杂指数法,将汉字的复杂性作为一个特征来进行统计,还有四边码法,只统计汉字的左上、右上、左下、右下四个区域的像素多少,将像素的多少再设定个等级来编码。该方法严重依赖于汉字的大小。还有粗外围特征,只扫描汉字的外围特征,还有粗网格特征,统计汉字落在网格里面的像素然后编码。
.........
第 2 章 系统相关技术概述
2.1 Opencv
Opencv 是一个开源的图形图像处理库,使用 C/C++语言编写而成的。Opencv包含了大约 500 多个函数,基本上覆盖了基本的图形图像处理函数[7]。该库还可以和 Intel 的 IPP(Integrated Performance Primitives)高性能多媒体函数库自动对接,但是 IPP 是需要购买的[8]。由于 Opencv 采用了开源的协议,许多公司例如 IBM、Google、Microsoft 等知名公司都在使用该库[9]。而且 Opencv 在全世界都有庞大的用户群体。由于互联网的推动也使 Opencv 越来越成熟高效。Opencv 包含了 5 大模块,涵盖了图形图像基本处理、绘图、统计以及视频流的处理和机器学习相关内容。可谓内容丰富,功能强大。CXCORE 提供了基本数据结构、基本数学计算功能、以及内存分配释放管理等。ML 包含了机器学习中用到的聚类分析、数据分析等。High GUI 主要处理图片、视频的基本输入输出等。MLL 库主要存放了统计方面的工具[10]。本文使用的基本上是 CV 模块中的图形处理。CV 库包含了常见的图形图像处理函数,平滑处理、漫水填充、尺寸调整、阀值化等基本处理,还有图像变换如拉普拉斯变换、Canny 算子、霍夫曼变换等等[11]。
..........
2.2 像素关系
总所周知图像是由屏幕上一个个像素点组成的,根据这些像素点的位置可以粗略的将两个像素定义为相邻或者不相邻。一个像素 p(x,y)的邻接点有 4 邻接、8 邻接、还有 M 邻接[15]。在文字细化等模块都使用的 8 邻接关系。根据 8 邻居可以定义出 8 个方向来。如下图所示,P1 分别在 8 个方向上存在 8 个邻接点。邻接点的判定是根据两个要素:1,如下图中的像素位置;2,是像素的值是否在一个范围里面。例如在二值化图像中,0 表示黑,1 表示白。那么如果像素值相同并且位置相邻那么它们就是连通的。当文字经过细化后,文字只剩下了一个像素的骨架。在遍历该骨架是就是需要根据连通域来遍历。在遍历下一个邻域节点就有 8 个方向可供选择。UTF-8(8-bit Unicode Transformation Format)编码是 Unicode 的一种编码方式。它是存储可变长的一种编码。为实现全球统一编码而产生,也叫万国码[16]。它使用 1-6 个字节来存储一个字符编码。我们熟知的 ASCII 编码已经普遍使用了,为了兼容 ASCII 码,UTF-8 也使用一个字节来存储 ASCII,并且字节的最高位也置为 0。
...........
第 3 章 图片文字识别系统分析与设计....12
3.1 系统需求分析........12
3.1.1 功能分析........ 12
3.1.2 用例分析........ 13
3.1.3 Word_OCR 识别时序图.....14
3.1.4 流程控制分析......... 15
3.2 系统总体结构设计.........16
第 4 章 图片文字识别..... 18
4.1 输入输出模块........18
4.2 图片预处理模块....19
4.3 特征码扫描............32
4.3.1 文字细化........ 32
4.3.2 连通域数字化......... 33
4.3.3 线段直线化.... 38
4.3.4 计算特征码.... 40
4.4 数据库操作............40
4.5 学习训练模块........42
第 5 章 系统测试与分析.......... 43
5.1 系统测试.......43
5.2 学习训练测试........46
第 5 章 系统测试与分析
5.1 系统测试
系统测试包括对单模块的测试,以及对系统的整体测试[30],Word_OCR 大模块分为正常的识别业务,和学习训练模块。两者其实是由关联的,识别业务是使用数据库,学习训练是扩大数据库,和增加数据库、检验数据库。而正常识别业务的大步骤包含了图片预处理模块,和图片特征码扫描查询模块。下面分别对以上提及的两大业务和两小模块进行测试。图 5.1 是在夜间拍摄的,整个图片发暗。二值化后的图片和校正之后的图片如图 5.2 所示。我们看到图片 5.2 文字稍显不清楚,应该是二值化阀值参数选择的不够理想,二值化参数应该加入更多的规则以寻求更好的效果。尽量减小图像特征的损失。如果人来看都发现有笔画缺失的化,那识别效果一定不会好的。因此二值化等这些关键步骤很重要。从图 5.3 看到我们定位行应该还是比较准确的。图片在一定程度上存在弯曲,我们看到图片的一行不是很直,这会在文字识别的时候判断文字位置存在问题。这种弯曲主要还是校正图片处出现的,因此一个比较正的原图片会增加识别的准确性的。
...........
总结
图片文字识别OCR软件应用广泛,打造一个算法优异、识别率高、并且可靠的OCR软件是很有应用前景的。该软件能直接明显的解放手动输入的工作,是立竿见影式的工具。由于当前的文字识别率还有很大的提升空间。当前的OCR软件只能辅助而不能另人们放心的去使用。这也是文字图片识别还处于不成熟的阶段。本文并未选择流行的文字特征扫描算法。而是独立自主的去探索一种基于文字几何特征去深入文字内部来获取文字特征编码。这样的编码的唯一性非常高。并且可重入性也非常高。虽然该方法复杂,但是却类似人类来识别文字的过程。大方向是正确的。如果容错率再提高的化,准确率应当是很可观的。本文的所做的主要工作如下:
1. 分析了当前OCR软件流行算法,了解了当前该领域的现状。以及介绍了图片操作的Opencv库,和图像图片的基本知识。
2. 完成了word_OCR系统的需求分析,并从需求中分析中出了系统用例、系统时序图、模块图、以及总体的架构。
3. 完成了图片的预处理的一系列操作,并且演示效果明显。从输入文字图片开始,经历了放大图片,转换灰度图片、二值化图片、校正图片,行列查找等。仔细分析了个阶段和步骤,在二值化中能够自动寻找最佳的阀值点。能够自动的校正图片。
.........
参考文献(略)
本文编号:84516
本文链接:https://www.wllwen.com/wenshubaike/lwfw/84516.html