当前位置:主页 > 科技论文 > 软件论文 >

基于自然场景的文本识别技术研究

发布时间:2019-06-25 21:25
【摘要】:随着智能设备的普及,智能设备拍摄的场景图像中包含的高级语义信息越来越受研究人员的关注。传统的光学字符识别技术往往无法很好地应用于场景图像文本的提取和识别,因为场景图像具有扫描图像所不具备的特性。造成识别困难的原因一方面是由于场景图像本身背景复杂,且拍摄场景图像时往往条件不可控,使得场景图像存在分辨率低、光照不均、模糊等问题;另一方面,由于场景图像中的字符往往在字体、大小和颜色等方面各有差异。因此,针对场景图像的文本识别问题需要新的解决方法。本文的工作是基于这样的背景开展的。本文主要工作包括:(1)深入研究和分析了当前自然场景文本识别领域的相关技术和现状;(2)基于深度学习中的卷积神经网络,实现了一个端到端的场景文本识别系统——MatE2E系统。该系统利用卷积神经网络学习字符特征,训练了两个分类器,分别用于字符的判定和识别。MatE2E系统的主要模块有两个。第一个主要模块是文本检测模块,该模块利用字符判断分类器和滑动窗口扫描场景图像来检测可能的文本区域,之后根据图像中不同位置的文本置信度过滤非文本区域。第二个主要模块是文本识别模块,该模块结合字符识别分类器和滑动窗口扫描文本区域图像并识别其中的文字,之后利用词典更正文本识别结果;(3)使用ICDAR2011数据集、ICDAR2015数据集和街景数据集验证了系统的准确率。实验结果表明,本文提出的系统具有较好的识别效果。本文在实验数据集上的验证结果表明MatE2E系统在实际应用中具有一定的参考价值。不过,MatE2E系统还有局限性,例如:只能识别英文字母和数字;另外还需在识别速度、倾斜文本检测等方面进行改进等。
[Abstract]:With the popularity of intelligent devices, more and more researchers pay attention to the advanced semantic information contained in the scene images taken by intelligent devices. The traditional optical character recognition technology can not be well applied to the extraction and recognition of scene image text, because the scene image has the characteristics that scanning image does not have. On the one hand, the difficulty of recognition is due to the complexity of the background of the scene image itself, and the conditions are often uncontrollable when shooting the scene image, which makes the scene image have some problems, such as low resolution, uneven light, blurring and so on; on the other hand, the characters in the scene image are often different in font, size and color. Therefore, new solutions are needed to solve the problem of text recognition of scene images. The work of this paper is based on this background. The main work of this paper is as follows: (1) the related technologies and present situation in the field of natural scene text recognition are deeply studied and analyzed; (2) based on the convolution neural network in deep learning, an end-to-end scene text recognition system, MatE2E system, is implemented. The system uses convolution neural network to learn character features and trains two classifiers for character determination and recognition respectively. There are two main modules of MatE2E system. The first main module is the text detection module, which uses character judgment classifier and sliding window to scan the scene image to detect the possible text area, and then filters the non-text region according to the text confidence of different positions in the image. The second main module is the text recognition module, which combines character recognition classifier and sliding window to scan the text area image and recognize the text, and then uses the dictionary to correct the text recognition results. (3) ICDAR2011 dataset, ICDAR2015 dataset and street view data set are used to verify the accuracy of the system. The experimental results show that the system proposed in this paper has a good recognition effect. The verification results on the experimental data set show that the MatE2E system has certain reference value in practical application. However, MatE2E system has limitations, such as: can only recognize English letters and numbers; in addition, it also needs to be improved in recognition speed, tilt text detection and so on.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.4

【相似文献】

相关期刊论文 前10条

1 王莉丽;于印;;一种基于双向投影的文本图像字符分割方法[J];数字技术与应用;2017年05期

2 薛松;于印;;纸质文档数据防泄与追溯中文本图像倾斜校正方法[J];电子技术与软件工程;2017年04期

3 贺志明;;透视文本图像的灭点探测[J];上海工程技术大学学报;2009年03期

4 李晓昆;基于笔划识别的文本图像压缩[J];微型机与应用;1998年09期

5 贺志明;;射影文本图像的校正[J];电气自动化;2008年01期

6 贺志明;;数码相机拍摄的透视文本图像的校正[J];上海工程技术大学学报;2007年03期

7 谢凤英;姜志国;汪雷;;基于空白条方向拟合的复杂文本图像倾斜检测[J];计算机应用;2006年07期

8 董湘君,常鸿森,郑楚君;一种基于小波变换的文本图像阈值法分割[J];华南师范大学学报(自然科学版);2004年03期

9 万长明,赵宇明,赵丽;基于粗糙集的彩色文本图像特征分割算法[J];红外与激光工程;2003年06期

10 沈大龙,任东,陈增强,袁著祉;基于最小二乘法的压缩文本图像恢复算法[J];计算机工程与应用;2002年02期

相关会议论文 前4条

1 冯莉;;文本识别技术在电视内容监管中的应用[A];中国新闻技术工作者联合会2017年学术年会论文集(学术论文篇)[C];2017年

2 李兰兰;吴乐南;;一种带噪声文本图像的增强算法[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年

3 张媛;蔡利栋;;一种去除文本图像椒盐噪声的方法[A];图像图形技术研究与应用(2010)[C];2010年

4 哈力木拉提.买买提;;基于轮廓的维吾尔文切分[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

相关重要报纸文章 前2条

1 诸艳;轻松在线OCR[N];中国电脑教育报;2004年

2 上海市高东中学 郑钢;练就一双“读图时代”的慧眼[N];中国教育报;2015年

相关博士学位论文 前10条

1 许剑峰;数字视频中的文本分割的研究[D];华南理工大学;2005年

2 章东平;视频文本的提取[D];浙江大学;2006年

3 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年

4 孙羽菲;低质量文本图像OCR技术的研究[D];中国科学院研究生院(计算技术研究所);2005年

5 杨春;复杂场景文本识别技术研究[D];北京科技大学;2018年

6 刘丽;近重复文本图像匹配研究[D];华东师范大学;2014年

7 谭利娜;文本图像鲁棒认证技术研究[D];湖南大学;2012年

8 吴锐;自然场景中文本识别技术研究及实现[D];哈尔滨工业大学;2010年

9 张昕;自然场景图像文本信息提取的理论与方法[D];清华大学;2014年

10 孙日明;几种图形图像压缩方法[D];大连理工大学;2013年

相关硕士学位论文 前10条

1 黄舒啸;基于自然场景的文本识别技术研究[D];北京邮电大学;2016年

2 钟巧;基于图论的扫描图像文本行分割与矫正[D];湖南大学;2017年

3 张媛媛;基于l_p范数稀疏先验的文本图像去模糊算法[D];北京工业大学;2017年

4 张鹏;基于机器学习的自然图像中文本检测及多文种辨识方法研究[D];延边大学;2017年

5 张红;基于L_0正则化的文本图像去模糊方法研究[D];昆明理工大学;2017年

6 杜敏;文本图像认证技术研究[D];西北大学;2010年

7 陈侃;基于模糊计算的文本图像二值化方法研究与应用[D];北方工业大学;2010年

8 张鑫;脱机手写维吾尔文本图像中粘连字符定位及分割[D];新疆大学;2015年

9 朱其猛;基于文字结构特征的文本图像方向的研究与应用[D];北方工业大学;2014年

10 周强;基于模糊核稀疏先验的文本图像运动模糊去除[D];安徽大学;2017年



本文编号:2506022

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2506022.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户80daa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com