基于特征的表格内容识别的研究

发布时间:2022-08-01 15:29
  光学字符识别(OCR)是以扫描仪等光学仪器得到的电子版文档作为处理对象,并对其信息进行分割和识别的一种技术。表格是一种格式简明、规范,信息高度集中的体现形式,便于人们快速准确地了解文档的内容,在生活中得到广泛应用。但是表格内容繁多,人工录入表格信息不仅耗费时间,而且容易出现差错。通过OCR技术实现表格内容的识别,不仅能提高工作的效率,而且大大降低了信息录入的错误率。本文主要针对表格内容的识别方法进行研究,包括印章的识别和表格文档的识别。本文基于印章的特征提出了通过映射将印章图像识别转为文字识别的方法。印章具有一系列显著的特征,如大多数印章的文字以圆心为中心呈环形分布,印章的颜色深浅和文字方向受人为因素的影响较大等,这些都增加了特征提取的难度,从而导致印章的识别效果不佳。本文首先对印章进行定位,并通过Gamma矫正增强印章的对比度使印章的纹理更加清晰;然后利用傅里叶变换将印章提取出来,再把印章从圆形映射成长方形;最后通过LeNet网络模型将印章图像识别转为文字识别。在对印章的识别效果的测试中,本文使用3 755个常用汉字,分别以五种字体经过数据增强生成印章数据集,并进行模型训练。实验结果... 

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

基于特征的表格内容识别的研究


图2-1?RGB颜色模型??Figure?2-1?Model?of?RGB??

基于特征的表格内容识别的研究


图2-2?HSV颜色模型??Figure?2-2?Model?of?HSV??

基于特征的表格内容识别的研究


图3-2验证集??Fiure?3-2?Verification?set??

【参考文献】:
期刊论文
[1]深度学习在文字识别领域的应用[J]. 李新炜,殷韶坤.  电子技术与软件工程. 2018(24)
[2]基于机器学习的文字识别方法[J]. 张恺天.  电子技术与软件工程. 2018(21)
[3]计算机技术在手写体汉字识别方面的应用及发展趋势[J]. 陈擎国.  科技传播. 2018(19)
[4]一种基于深度学习的青铜器铭文识别方法[J]. 李文英,曹斌,曹春水,黄永祯.  自动化学报. 2018(11)
[5]借力互联网AI服务 实现票据文字自动识别[J]. 陈翰波,彭少辉.  金融科技时代. 2018(08)
[6]基于特征图叠加的脱机手写体汉字识别[J]. 毛晓波,程志远,周晓东.  郑州大学学报(理学版). 2018(03)
[7]基于游程聚类的表格框线检测算法[J]. 白伟,崔喆.  计算机应用. 2018(S1)
[8]社区选举系统选票中的表格识别算法[J]. 邝振,崔喆.  计算机应用. 2017(S2)
[9]深度学习在手写汉字识别中的应用综述[J]. 金连文,钟卓耀,杨钊,杨维信,谢泽澄,孙俊.  自动化学报. 2016(08)
[10]表格字符识别系统的分层特征提取算法[J]. 周凤香.  智慧工厂. 2016 (02)

博士论文
[1]支票印鉴快速检测方法中的关键技术研究[D]. 邓集杰.天津大学 2010

硕士论文
[1]印刷体文档表格识别技术研究[D]. 张远.湖南大学 2018
[2]印鉴提取和识别的研究及应用[D]. 宋成璐.吉林大学 2016
[3]复杂版面文档图像表格与图的提取及分析[D]. 卞静潇.西安电子科技大学 2015
[4]表格识别系统中框线检测与去除的算法研究[D]. 周壮.辽宁科技大学 2015
[5]印刷体表格识别的研究[D]. 刘昱.哈尔滨工程大学 2013
[6]印刷体中文文档中表格和汉字的识别研究[D]. 于伯峰.哈尔滨工程大学 2011
[7]表格手写内容识别系统的设计与实现[D]. 王淞.华中科技大学 2011
[8]基于DSP的印鉴鉴别系统研究[D]. 张忠传.天津大学 2009
[9]印刷体汉字识别系统的特征提取和匹配识别研究[D]. 聂玖星.大连理工大学 2009
[10]公文印鉴自动识别关键技术[D]. 苗健.吉林大学 2008



本文编号:3667706

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3667706.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户814de***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com