深度模型及其在视觉文字分析中的应用

发布时间：2017-12-17 10:34

本文关键词：深度模型及其在视觉文字分析中的应用

【摘要】：视觉文字分析是指从机器视觉角度智能感知和理解周围环境文字信息的一项技术,包括自动定位文字位置、识别文字内容和获取文字相关属性等。视觉文字分析技术无论在语言翻译、图像高层语义理解、人机交互,还是盲人阅读辅助、拍照识图、图像检索、无人自动驾驶等领域都具备巨大的应用前景。同时也是计算机视觉、模式识别等领域的研究难点之一。然而,传统的视觉文字相关方法或模型普遍存在以下特点:使用浅层特征、各模块相互独立、未能从大规模数据中自动学习有效特征表达。而且,现实情景中,各种复杂的干扰因素也使得已有的方法或模型未能进一步取得令人满意的性能,比如,手写汉字中存在大量的相似字、场景图像中不符合连通域定义的文字区域、字体识别中的特征表达等等。针对该领域存在的问题,本文主要围绕视觉文字分析中的三个任务(即手写汉字相似字发掘和识别、场景图像中的文字候选区域抽取、汉字字体识别的特征表达与学习)开展本文研究工作。本文吸收了已有方法在该领域的研究成果,运用了机器学习、计算机视觉、模式识别领域的前沿理论和技术,融合对问题的理解和认识,提出了级联分类框架下的相似字发掘方法,构建了针对场景文字检测的字符候选区域网络,并设计和改进了字体识别中的特征表达和学习算法。具体来说,本文的工作内容和创新主要为以下几方面:第一、在汉字相似字方面,本文提出了一种多置信度决策和熵计算的相似字发掘方法。尽管深度卷积神经网络大大提升了整体识别正确率,但简单地使用仍无法很好解决汉字相似字识别问题。本文在充分地统计和分析测试样本的置信度特性后,设计了一种多样本置信度共同决策的方案,用于发现相似字集合和相似字对。另外,针对类内相似字对数目不均和混淆程度不同的特点,本文提出了一种基于熵计算的相似性度量排序方案。该相似字发掘方法可以使用较少的相似对,从而涵盖尽可能多的误判样本。最后,基于发掘到的相似字对,本文提出了一种融合深度神经网络和字典对学习的级联分类方案。我们综合分析和比较不同模型在不同情况下的性能和效率的优缺点,率先将字典对学习方法引入到级联分类框架的第二级分类阶段,用于解决相似字分类问题。实验结果表明,使用本文提出的相似字发掘算法分别在casia-olhwdb1.0和casia-olhwdb1.0-1.2数据集上取得98.44%和98.05%的命中率,优于基于改进二次判决函数方法的95.42%和94.49%。同时,本文提出的级联分类框架在casia-olhwdb1.0和casia-olhwdb1.0-1.2数据集上分别将错误率降低了18.54%和16.99%,有效地解决了相似字识别的问题。第二、在场景图像文字检测方面,本文提出了一种稳健的文字抽取方法,即字符区域候选网络。已有字符候选方法在以下情况容易出现漏检或错检,包括多字符粘连、同一字符的多部件分离及非均匀光照条件。针对上述问题,我们调研了几种通用物体候选方法,研究了最大稳定极值区域和笔画宽度变换等两种常见的字符候选方法,并吸收滑动窗口方法抗干扰能力强的优点,推导出网络前向和后向映射的对应关系,利用全卷积网络共享卷积运算的特性构建了一种可定位文字的字符区域候选网络。该字符区域候选网络融入了多任务协同学习的算法,使得字符区域候选网络能够同时输出字符得分响应图和位置响应图。并且字符区域候选网络结合了一种多宽高比模板的策略,以更好应对字符宽高比不一的问题。本文将这些先验知识嵌入到统一的学习框架下,使得字符区域候选网络能预测到更加接近真实字符区域的位置。实验结果表明,字符候选区域网络使用1000个候选框分别在icdar2013、svt和chinese2k数据集上取得93.88%、93.60%和96.46%的召回率,优于mser,edgeboxes,selectivesearch和mcg等算法。在本研究工作中,我们采集和标注了一个中英语言场景文字检测和识别数据集scut-foru-db。该数据集包括3,931张场景图像,标注了55,209个字符或单词实例。现scut-foru-db数据集发布在网址https://www.dropbox.com/s/06wfn5ugt5v3djs/scut_foru_db_release.rar?dl=0,供相关科研工作者免费下载使用。第三、在字体属性理解方面,本文提出了一种基于局部特征的快速字体识别方法。我们发现笔画关键点处蕴藏着丰富的字体鉴别信息。基于这种观察,本文利用角点检测的方法去定位关键点进而在关键点处提取局部特征。本方法依靠较少量的关键点即可提取到足够丰富的鉴别信息,显著提高了字体识别速度。实验结果表明,本文提出的基于局部特征表达的快速汉字字体识别系统在不损失原有精度的情况下,将特征抽取环节加速将近20倍。除此之外,本文还介绍了一种全自动采集和标注扫描文档字符的方法,并收集了一个多语言扫描文档字体数据库。另外,本文运用计算机图形图像处理技术,设计了一种基于泊松编辑的文字图像渲染方案,合成的图像自然逼真,可用于场景单词分类、字体识别、字体检索和字符分割等多个任务中。最后,为了增强深度模型的特征学习能力,本文还提出了一种称为DropRegion的正则化方法。在常用的MSDF-DB数据集上,本文提出的DropRegion方法在不同的训练样本数量下,将单字符字体识别的分类正确率分别提高了3.03%,2.95%和1.46%;并且基于DropRegion的字体识别系统在MSDF-DB数据集上取得99.7%的识别正确率,证实了DropRegion是一种非常有效的模型正则化技术。
【学位授予单位】：华南理工大学
【学位级别】：博士
【学位授予年份】：2016
【分类号】：TP391.41

【参考文献】

中国博士学位论文全文数据库前1条

1 高岩;基于大规模无约束数据的书写者自适应的中文手写识别系统研究[D];华南理工大学;2013年

，

本文编号：1299819

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/xxkjbs/1299819.html

上一篇：IaaS环境中科学工作流关键技术研究
下一篇：人眼高阶像差校正对立体视觉和双眼调节的影响研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|