当前位置:主页 > 科技论文 > 软件论文 >

图像中无约束文本的定位与分割研究

发布时间:2018-06-19 21:05

  本文选题:iFAST检测算法 + 笔划连通分割 ; 参考:《广西师范大学》2017年硕士论文


【摘要】:静态图像和动态视频(帧)中的文本识别,分两个阶段进行:首先对图像中的文本进行检测与提取,从输入的原始图像中分割出文本区域,即文本检测;然后对检测出的文本区域进行识别,从输入的文本区域图像识别出相应的文本结果,即文本识别。其中文本检测和定位主要用来确定图像中文本的位置,并找出这些文本的边界框,是整个流程中最为关键的一步。文本分割尽可能去除文本周围的背景,便于随后的文本识别。计算机视觉要实现图像的处理、分析和理解,文本检测和定位是必不可少的基础步骤和关键阶段,这是本文研究的意义所在。文献研究显示,自然场景图像中的文本识别,难以直接套用传统标准(有约束)图像中的文本识别算法,因为自然场景图像中文本字与字之间存在着尺寸大小不同、方向不同、字体不同、模糊程度不同、光照度不同、被障碍物遮掩程度不同等差异;另外实时性要求相对较高。任何文本皆由笔划组成,而笔划检测的关键在于检测笔划上的角点。角点检测常用算法 SURF、AGAST、BRISK、FAST、SIFT、ORB 中,FAST(Features from Accelerated Segment Test)算法虽不具尺度不变性,但具有一定程度旋转不变性和仿射不变性,更为重要的是速度明显较快,较适合于实时应用,故本文基于FAST算法和笔划宽度转换算法,提出了一种改进FAST检测算法(iFAST-improved FAST)--一种快速文本角点检测算法,用于定位和分割图像中含有无约束文本的区域。iFAST检测算法,首先检测图中笔划的角点,然后根据角点属性提取成文本片段,接着使用多尺度自适金字塔模型训练级联分类器以去除多余的非文本区域。该算法能快速、鲁棒、精确地检测与分割出图像中大小不同文本区域。还采用基于文本方向投票的有效文本聚类算法,将检测到区域聚集到文本行,以允许后续阶段(例如OCR模块)处理。利用文本识别领域常用的ICDAR2013和MSRA-TD500两个数据集作为训练集和测试集,并与其它算法做了性能对比,结果发现本文提出的iFAST可以在多样性文本和多方向的文本取得较好的性能,iFAST检测算法与常用MSER文本检测算法相比,产生的区域数目减少为原区域数目的2分之1,且能检测多25%的字符,同时检测速度高4倍。采用后续分类阶段的iFAST检测算法可减少为1/7的原区域分割数目,且比MSER检测算法快近3倍。
[Abstract]:The text recognition in static image and dynamic video (frame) is divided into two stages: firstly, text detection and extraction are carried out in the image, and the text region is segmented from the input original image, that is, text detection; Then the detected text region is recognized, and the corresponding text result is recognized from the input text region image, that is, text recognition. Text detection and location is the most important step in the whole process, which is mainly used to determine the location of the Chinese text of the image, and to find the boundary box of the text. Text segmentation removes the background around the text as much as possible to facilitate subsequent text recognition. In order to realize image processing, analysis and understanding, text detection and location are essential basic steps and key stages of computer vision, which is the significance of this study. Literature studies show that text recognition in natural scene images is difficult to directly apply to text recognition algorithms in traditional (constrained) images, because there are different sizes and directions between Chinese characters and characters in natural scene images. Different fonts, different fuzzy degree, different illumination, different degree of occlusion by obstacles, the other requirements are relatively high real-time. Any text consists of strokes, and the key to stroke detection is to detect corner points on strokes. Although the algorithm of corner detection is not scale-invariant, but has a certain degree of rotation invariance and affine invariance, it is more important that the speed is obviously faster, and it is more suitable for real-time application, although the algorithm of corner detection is not scale-invariant, but has a certain degree of rotation invariance and affine invariance. Therefore, based on fast algorithm and stroke width conversion algorithm, an improved fast text corner detection algorithm is proposed, which is used to locate and segment the region. IFAST detection algorithm contains unconstrained text. Firstly, the corner points of strokes in the graph are detected, then extracted into text fragments according to the corner attributes, and then cascaded classifiers are trained by multi-scale adaptive pyramid model to remove redundant non-text regions. The algorithm is fast, robust and accurate to detect and segment different text regions. An efficient text clustering algorithm based on text direction voting is also used to cluster the detected regions into text lines to allow subsequent stages (such as OCR modules) to process. Two data sets, ICDAR2013 and MSRA-TD500, which are commonly used in the field of text recognition, are used as training set and test set, and the performance of ICDAR2013 and MSRA-TD500 are compared with other algorithms. The results show that the iFAST proposed in this paper can achieve better performance in the diversity of text and multi-directional text detection algorithm compared with the usual MSER text detection algorithm. The number of regions generated is reduced to 1 / 2 of the original region number and can detect more than 25% of the characters, and the detection speed is 4 times higher. Using the iFAST detection algorithm in the subsequent classification stage can reduce the number of original regions to 1 / 7, and is nearly three times faster than the MSER detection algorithm.
【学位授予单位】:广西师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.41

【相似文献】

相关期刊论文 前10条

1 ;信息文本快速阅读技术[J];黄石高等专科学校学报;2004年02期

2 刘建毅;王菁华;王枞;;文本网络表示研究与应用[J];中国科技论文在线;2007年10期

3 吴思竹;张智雄;钱庆;;基于语言网络的文本表示模型研究[J];情报科学;2013年12期

4 于屏方;杜家利;;文本排歧语义图式的自动获取与选择[J];计算机工程与应用;2007年31期

5 陈燕敏;楼喜中;;一种基于集聚确定文本意向结构的方法[J];微计算机信息;2010年18期

6 袁鼎荣;钟宁;张师超;;文本信息处理研究述评[J];计算机科学;2011年02期

7 林鸿飞,战学刚,姚天顺;文本层次分析与文本浏览[J];中文信息学报;1999年04期

8 姚天f ;“自然语言多语种文本生成系统”在上海交通大学研制成功[J];中文信息学报;1999年04期

9 石晶;;文本分割综述[J];计算机工程与应用;2006年35期

10 刘红红;安海忠;高湘昀;;基于文本复杂网络的内容结构特征分析[J];现代图书情报技术;2011年01期

相关会议论文 前6条

1 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

2 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

4 刘玲;周经野;罗慧慧;;基于XML的文本规划方法[A];2005年全国理论计算机科学学术年会论文集[C];2005年

5 苏贵洋 ;李建华 ;马颖华;;XML统一文本自动处理描述接口[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

6 揭春雨;刘晓月;冼景炬;卫真道;;从网络获取香港法律双语语料库[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

相关博士学位论文 前10条

1 方莹;面向热点新闻话题的文本处理技术研究[D];北京理工大学;2015年

2 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年

3 程齐凯;学术文本的词汇功能识别[D];武汉大学;2015年

4 刘赫;文本分类中若干问题研究[D];吉林大学;2009年

5 赖彦;新闻话语对话性的文本分析与阐释[D];南京师范大学;2011年

6 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年

7 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年

8 单建芳;面向事件的文本表示研究[D];上海大学;2012年

9 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年

10 眭新光;文本信息隐藏及分析技术研究[D];解放军信息工程大学;2007年

相关硕士学位论文 前10条

1 江长柱;用户咨询文本的语义相似度计算方法研究[D];江苏科技大学;2015年

2 李欣;基于维度判别的文本情感聚类方法研究[D];山西大学;2015年

3 黄志锋;中职语文教学“反文本”倾向探究[D];宁波大学;2015年

4 李丽娜;基于BIM的建设项目文本信息集成管理研究[D];大连理工大学;2015年

5 葛文镇;面向微博的短文本多分类研究[D];宁波大学;2015年

6 高士林;图像中的文本定位技术研究[D];解放军信息工程大学;2014年

7 肖诚求;自然场景图像中文本提取技术研究[D];解放军信息工程大学;2015年

8 刘春晨;HANA系统文本情感分析模块的设计与实现[D];南京大学;2014年

9 杨海振;文本·传播·组织:网络公共事件的特征分析[D];西南大学;2016年

10 黄天宇;自然场景文本检测方法研究[D];华南理工大学;2016年



本文编号:2041264

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2041264.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7a2d0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com