扫描档案的图像处理技术
本文选题:扫描档案 + 图像处理 ; 参考:《天津大学》2016年硕士论文
【摘要】:对纸质保护和利用一直是档案系统的重要工作,纸质档案容易损坏、查阅效率低、无法通过计算机方便利用等问题也一直困扰着档案人员。对纸质档案进行数字化扫描,将其转化为数字信息是现今采取的比较常见又行之有效的技术手段。近年来,档案数字化加工在我国已经由省市级档案馆推进到区县级档案馆。从全国范围内看档案数字化的增速很快,但由于历史欠账过多、各地区发展不平衡等原因,已经经过数字化加工的档案占全部档案的比重还很有限。随着档案数字化在我国进程的不断加快,扫描档案存在的一些问题也逐渐引起档案部门的重视。由于设备、文件保存质量等原因造成扫描的图像存在噪声、图像明暗不均、扭曲变形等情况,这些问题严重影响到对数字图像的OCR(Optical Character Recognition光学识别技术)识别,以及后期对扫描档案的利用。本文主要研究利用数字图像处理技术解决扫描图像存在的问题。由于档案资源有其自身的保密属性,在保证质量相同的前提下看,本文使用一些公开的扫描图像来模拟纸质档案的扫描图像,在MATALB(Matrix Laboratory矩阵实验室)软件环境下进行仿真。介绍了OCR识别软件的工作原理,结合档案管理的自身特点,对形成的数字档案文件的文件格式进行了探讨,分析了档案文件对格式的要求,比较了常见的几种文件格式。分析了扫描档案产生噪音的特点,特别是其产生椒盐噪声和高斯噪声的情况,尝试了灰度直方图算法、均值滤波、中值滤波等图像预处理算法,并提出一种基于中值滤波的自适应算法。针对图像中需要提取加工的信息使用图像分割技术,将存在信息一致性的图像区域整体提取出来进行分析。使用图像二值化算法确定合适的阈值对图像信息进行提取,提高OCR识别率。使用边缘检测算法,锐化图像中部分模糊的信息。
[Abstract]:The protection and utilization of paper has always been an important work in the file system. The problems such as easy damage of paper archives, low efficiency of consulting and being unable to be easily used by computer have also troubled archivists. It is a common and effective technique to scan paper files digitally and convert them into digital information. In recent years, the digital processing of archives has been promoted from provincial and municipal archives to district and county level archives in China. The digitization of archives is increasing rapidly in the whole country, but the proportion of digitally processed archives to the total archives is still very limited because of too much historical debts and unbalanced development in various regions. With the rapid development of file digitization in our country, some problems existing in scanning archives have been paid more and more attention by archives departments. Because of the equipment, the quality of document preservation and so on, the scanned image has noise, uneven light and dark, distorted deformation and so on. These problems seriously affect the recognition of digital image by OCR(Optical Character Recognition optical recognition technology. And the later use of scanned files. In this paper, digital image processing technology is mainly used to solve the problem of scanning image. Because archives have their own secret property, under the premise of ensuring the same quality, this paper uses some open scanning images to simulate the scanned images of paper files, and simulates them under the software environment of MATALB(Matrix Laboratory Matrix Laboratory. This paper introduces the working principle of OCR recognition software, discusses the file format of the digital archive file formed by combining with the characteristics of file management, analyzes the requirements of the file format, and compares several common file formats. In this paper, the characteristics of noise generated by scanning file, especially the noise of salt and pepper and Gao Si noise, are analyzed. The image preprocessing algorithms, such as gray histogram algorithm, mean filter, median filter and so on, are tried. An adaptive algorithm based on median filter is proposed. The image segmentation technique is used to extract the information which needs to be extracted and processed in the image, and the whole image region with information consistency is extracted for analysis. Image binarization algorithm is used to determine the appropriate threshold to extract the image information to improve the OCR recognition rate. The edge detection algorithm is used to sharpen the partially blurred information in the image.
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.41
【参考文献】
相关期刊论文 前10条
1 索辰妍;;数字化档案文件格式选择的基本要求[J];黑龙江科技信息;2016年07期
2 鲍义东;周改云;赵伟艇;;自适应蚁群和模糊聚类的SAR图像分割[J];测绘科学;2016年08期
3 张婷;王卓英;;手写体数字计算机识别系统的应用研究[J];微型电脑应用;2016年01期
4 李明华;;在全国档案工作暨表彰先进会议上的讲话[J];中国档案;2016年01期
5 李春刚;;档案数字化建设实践的探讨[J];电子测试;2016年01期
6 王玲丽;;浅谈OCR技术在图书馆文献资源加工中的应用——以上海图书馆近代文献全文OCR数据制作项目为例[J];数字与缩微影像;2015年01期
7 张培华;;浅议照片档案的信息化建设——以广东省档案馆声像档案信息化建设为例[J];广东档案;2014年04期
8 段炼;;照片档案数字化管理研究[J];才智;2014年18期
9 孙琰;;照片档案的管理及安全保护[J];科技情报开发与经济;2013年14期
10 李淑梅;;现代档案管理如何发挥图像处理的最大功效[J];黑龙江史志;2013年11期
相关硕士学位论文 前4条
1 蒋智文;视觉文档图像的矫正方法研究[D];华南理工大学;2015年
2 吴翔;数字图像处理在办公自动化系统中的应用[D];济南大学;2014年
3 梁晨曦;数字档案管理系统的设计与实现[D];天津大学;2013年
4 尚晋;图像处理在工商企业档案信息系统中的应用研究[D];重庆大学;2007年
,本文编号:1886683
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1886683.html