OCR技术在审计现场中的应用研究
发布时间:2021-01-30 13:08
电网企业目前的计算机审计工作主要基于数据库中的电子数据进行分析,而从审计经验看,被审计单位的各类纸质文件中往往隐藏着大量的审计线索和疑点,如何充分利用相关数据是本课题的核心。基于此,本文首先要解决的问题就把相关纸质文件转化成计算机能够识别的文字,这需要企业利用扫描仪将相关文件扫描成图片;其次,本文研究了OCR图片识别技术,将扫描后的图片文件进行OCR处理,并抽取成文字文档,为相关文档的深度挖掘和利用奠定基础。
【文章来源】:中国管理信息化. 2020,23(16)
【文章页数】:3 页
【部分图文】:
财务报表识别步骤
影响识别准确率的技术瓶颈是文字检测和文本识别,而这两部分也是OCR技术的重中之重。在传统OCR技术中,图像预处理指针对存在图像的成像、内容等问题进行修正。常见的预处理过程包括:几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正等。文字检测即检测文本的所在位置和范围及其内容和布局。一般包括文字版面分析和内容文字行检测等。文字检测主要解决的问题是哪里出现文字、文字的范围涵盖有多大等。文本识别是在文本预检测和行检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息。文字识别主要解决的问题是每个文字是什么。识别出的文本通常需要再次核对以保证其正确性。其中,当识别的内容是由词库中的词汇组成时,可以称为词典识别(Lexicon-based),反之称为无词典识别(Lexicon-free)。(1)图像预处理
【参考文献】:
期刊论文
[1]推进内部审计整改工作的思考[J]. 袁芳. 财会学习. 2017(15)
[2]浅谈OCR技术的发展和应用[J]. 王文华. 福建电脑. 2012(06)
硕士论文
[1]基于Tesseract光学字符辨识应用的设计与实现[D]. 张扬.西安电子科技大学 2013
本文编号:3008956
【文章来源】:中国管理信息化. 2020,23(16)
【文章页数】:3 页
【部分图文】:
财务报表识别步骤
影响识别准确率的技术瓶颈是文字检测和文本识别,而这两部分也是OCR技术的重中之重。在传统OCR技术中,图像预处理指针对存在图像的成像、内容等问题进行修正。常见的预处理过程包括:几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正等。文字检测即检测文本的所在位置和范围及其内容和布局。一般包括文字版面分析和内容文字行检测等。文字检测主要解决的问题是哪里出现文字、文字的范围涵盖有多大等。文本识别是在文本预检测和行检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息。文字识别主要解决的问题是每个文字是什么。识别出的文本通常需要再次核对以保证其正确性。其中,当识别的内容是由词库中的词汇组成时,可以称为词典识别(Lexicon-based),反之称为无词典识别(Lexicon-free)。(1)图像预处理
【参考文献】:
期刊论文
[1]推进内部审计整改工作的思考[J]. 袁芳. 财会学习. 2017(15)
[2]浅谈OCR技术的发展和应用[J]. 王文华. 福建电脑. 2012(06)
硕士论文
[1]基于Tesseract光学字符辨识应用的设计与实现[D]. 张扬.西安电子科技大学 2013
本文编号:3008956
本文链接:https://www.wllwen.com/jingjilunwen/sjlw/3008956.html