印刷体数学公式识别关键技术研究
发布时间:2022-02-09 09:03
近年来,随着计算机技术的飞速发展以及互联网的普及,电子文本已经逐渐成为人们进行信息获取的主要方式之一。然而,部分的电子文本资料是以图像格式进行存储的,难以对其进行检索,重用。得益于印刷体文本识别技术的发展,以图像格式保存的大部分文本信息可以转换为可编辑的文本格式。数学公式具有复杂的二维结构和灵活的表达方式,使其难以准确地转换为可编辑的文本信息。目前,常规的公式识别方法往往是将公式识别问题划分为字符切分,字符识别和结构分析三个阶段,但上一阶段的错误常常会传递到下一阶段中,使得公式识别的准确率较低。针对以上问题,本文提出了一种基于全局信息的印刷体数学公式识别方法。该方法充分考虑了字符切分、字符识别以及结构分析间的内在联系,利用上下文信息和公式的语法信息来实现对印刷体数学公式的识别。本文利用基于合并策略的混合字符切分方法对字符进行切分,有效改善了多连通域字符切分过程中存在的过切分问题。在字符识别方面,本文提出了改进的Le Net-5卷积神经网络的字符识别模型,针对数学公式符号识别的具体问题,对原网络结构进行了调整,同时对网络参数进行了优化,得到了一个训练速率快、识别率高且泛化能力强的数学字符...
【文章来源】:哈尔滨工业大学黑龙江省211工程院校985工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
垂直投影分割图
哈尔滨工业大学工程硕士学位论文-18-Otsu算法(大律法)[42]62;动态阈值法一般利用像素的领域特征来计算出该像素点位置的阈值,但是该类方法的二值化效果的好坏十分依赖于动态窗口大小的选取,常见的算法有Wolf算法[43],Sauvola算法[44]。由于公式图像的前景与后景之间对比十分分明,对于高质量的扫描件及PDF文档中的公式,直接使用整体阈值法进行图像二值化操作就能很好地提取出公式图像中的公式主体进行后续处理。值得注意的是,在不清楚图像前后景的对比度的情况下,机械性地预设二值化的阈值显然是不合适的。因此,此处选用大律法来对这些公式图像进行二值化处理。大律法的计算原理[42]63如下:假设灰度化后的公式图像f(x,y)灰度级为G(1,2,3,4,l)
本文编号:3616737
【文章来源】:哈尔滨工业大学黑龙江省211工程院校985工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
垂直投影分割图
哈尔滨工业大学工程硕士学位论文-18-Otsu算法(大律法)[42]62;动态阈值法一般利用像素的领域特征来计算出该像素点位置的阈值,但是该类方法的二值化效果的好坏十分依赖于动态窗口大小的选取,常见的算法有Wolf算法[43],Sauvola算法[44]。由于公式图像的前景与后景之间对比十分分明,对于高质量的扫描件及PDF文档中的公式,直接使用整体阈值法进行图像二值化操作就能很好地提取出公式图像中的公式主体进行后续处理。值得注意的是,在不清楚图像前后景的对比度的情况下,机械性地预设二值化的阈值显然是不合适的。因此,此处选用大律法来对这些公式图像进行二值化处理。大律法的计算原理[42]63如下:假设灰度化后的公式图像f(x,y)灰度级为G(1,2,3,4,l)
本文编号:3616737
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3616737.html
最近更新
教材专著