基于中亚多文种文档图像的文种识别技术研究
本文选题:文种识别 + 特征提取 ; 参考:《新疆大学》2017年硕士论文
【摘要】:全球各地目前使用很多种相似的文种。近年来,数字文件处理在办公和图书馆自动化、银行和邮政业务、出版社和通信管理等领域的应用中日益普及。对于能够搜索多语言信息的书面和口头来源工具的需求大大增加,。多文种OCR识别系统的开发已成为亟待解决的问题。在实现多文种OCR系统之前,需要研究多文种文档图像的文种识别,并需供给OCR系统。同时相似文种的识别是模式识别领域内难点。本文主要研究是基于多特征提取的多文种文档图像的文种识别技术。本文主要突出的贡献如下:(1)首先为了验证本算法的有效性和稳定性,建立了不同分辨率的三个多文种文本文档图像数据库,分别有1600幅,2200副(分辨率100dpi)和2200副(分辨率200dpi)纯文本整篇文档图像,包含英,汉,俄,蒙,阿拉伯,藏,维吾尔,土耳其,吉尔吉斯,塔吉克斯和哈萨克斯等共11个文种。(2)实现了基于HSV特征提取与利用BP分类器的多文种文本文档图像的文种识别系统。(3)提取了Tamura特征和由六个特征参数值构成的纹理特征。并且这些特征利用不同的6个分类器进行分类,最后统计识别结果。(4)提出特征加权融合方法并提取融合的纹理特征,确定了适合中亚多文种文本文档图像文种识别的最佳权值。(5)提取了Hu不变矩特征,并利用贝叶斯,欧氏距离,马氏距离和LDA等分类器进行分类识别。(6)最后,提出Hu不变矩特征、Tamura特征与纹理特征进行融合的识别方法,获得了较好的识别结果。以建立的三个数据库基础上获得的最高平均识别率分别为99.38%,95.69%和98.64%。实验结果表明,本文提出的特征能较好的描述文档图像特征,并且它们能够有效的分类识别以上所述的11个文种。尤其是对于中亚相似文种和我国少数民族文种的文本文档图像分类识别方面具有一定的优越性和稳定性。
[Abstract]:In recent years, digital file processing has become increasingly popular in applications in the fields of office and library automation, banking and postal services, publishing houses and communication management. The demand for written and oral source tools for searching multilingual information has increased greatly. Multi language OCR identification system Development has become a problem to be solved urgently. Before realizing the multi language OCR system, we need to study the identification of multi language document images and supply the OCR system. At the same time, the identification of similar language is the difficult point in the field of pattern recognition. This paper is mainly a study on the recognition technology of multi language document image based on multi feature extraction. The main outstanding contributions are as follows: (1) first of all, in order to verify the effectiveness and stability of the algorithm, three multitext text document image databases with different resolution are established, including 1600, 2200 pairs (resolution 100dpi) and 2200 pairs (resolution 200dpi), the whole text document images, including English, Han, Russian, Mongolian, Arabia, Tibet, Uygur, and soil 11 languages such as ear, Kyrgyz, tajikis and kazakx. (2) a text recognition system for text document images based on HSV feature extraction and BP classifier is realized. (3) the features of Tamura and the texture features made up of six characteristic parameters are extracted, and these features are divided by 6 different classifiers. Class and final statistical identification results. (4) a feature weighted fusion method is proposed and the fused texture features are extracted. The best weight suitable for the recognition of the text document image is determined. (5) the Hu invariant moment features are extracted and classified by Bayes, Euclidean distance, martensitic distance and LDA classification. (6) finally, Hu The feature of invariant moment, the recognition method of Tamura feature and texture feature fusion, obtained better recognition results. The highest average recognition rate obtained on the basis of the three databases is 99.38%, 95.69% and 98.64%. show that the features presented in this paper can describe the feature of the document image well, and they can have the recognition. The effective classification identifies the 11 languages mentioned above, especially for the classification and recognition of the text document image of the similar Central Asian and the ethnic minority languages in China.
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.41
【参考文献】
相关期刊论文 前10条
1 童莉;周林;平西建;徐森;;基于高斯衍生滤波器组的文种识别算法[J];数据采集与处理;2014年05期
2 王刚;靳彦青;刘立柱;储瑞来;;基于多特征融合的东亚文种识别[J];计算机科学;2013年01期
3 顾立娟;刘才斌;吴勇;郝玉保;;基于多小波变换的文本图像文种识别[J];电子设计工程;2011年15期
4 郭龙;平西建;周林;;基于文字笔画方向直方图的文本图像文种识别[J];信息工程大学学报;2011年02期
5 顾立娟;邵命山;郝玉保;;基于可控金字塔子带能量特征的文种识别方法[J];计算机应用与软件;2011年03期
6 郭龙;平西建;周林;童莉;;基本图像特征用于文本图像文种识别[J];应用科学学报;2011年01期
7 郭海;赵晶莹;韦宗伟;;一种采用小波包分析及RBFN的民族文种识别方法[J];计算机工程与科学;2010年08期
8 顾立娟;平西建;程娟;郝玉保;;一种具有旋转鲁棒性的文本图像文种识别方法[J];中国图象图形学报;2010年06期
9 邹刚;孙即祥;敖永红;姚伟;;证据加权融合的多尺度形态学细胞边缘检测[J];计算机工程与应用;2010年12期
10 郭海;赵晶莹;;基于小波分析及改进二次鉴别函数的民族文种识别[J];计算机应用;2009年12期
相关硕士学位论文 前5条
1 范晔斐;蒙汉英混排文档图像的文种识别研究[D];内蒙古大学;2013年
2 郭龙;印刷体文本图像文种识别技术研究[D];解放军信息工程大学;2011年
3 顾立娟;基于文本图像纹理特征的文种识别技术研究[D];解放军信息工程大学;2009年
4 曹莉;基于文种识别的东南亚传真报筛选检索研究[D];解放军信息工程大学;2009年
5 陆小川;印刷体文本图像的文种识别研究[D];解放军信息工程大学;2007年
,本文编号:1907459
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1907459.html