视频文本显著性分析与文本检测方法研究
发布时间:2020-02-04 07:12
【摘要】:随着智能手机等数码产品的应用普及和各类如Youtube、Facebook等支持上传和分享个人拍摄视频的在线社交网站的增多,视频也日渐成为常见的信息传递载体。对当下基于内容的很多视频应用(如视频的检索、摘要、分类和视频分析等)来说,可靠提取视频中包含丰富语义信息的文本对象具有重要的实际价值。然而由于图像采集条件的差异、文本形式和内容的多样性以及视频图像场景和文字背景的复杂性,使得针对视频中文本的可靠提取具有相当大的难度,同时也得到了模式识别、计算机视觉、图像处理、多媒体技术等众多研究领域的广泛关注。作为视频中文本信息提取的关键环节,本文针对视频中的文本显著性分析和文本检测问题开展了深入的研究并提出了相应的有效算法。针对视频图像的文本显著性分析,本文提出基于时-空文本特征的视频文本显著性分析算法。通过采用结合随机森林和卷积神经网络的级联预测模型,本方法首先在视频帧中计算能有效反映像素级别文本特征的文本置信度值,然后将视频帧分割为大小一致的区域块(patch)并提取反映文本置信度统计和空间分布的区域块特征。在其基础上,本方法提出了基于重启概率随机游走的时-空文本显著性分析模型,该模型将视频帧表示为以区域块为图节点的全连接有向图,进而在图上基于文本置信度和相关视觉特征计算文本的空间显著性,另一方面基于文本对象在连续多帧视频图像间的稳定性计算文本的时间显著性,最后使用重启概率随机游走算法将空间和时间文本显著性有效结合在一起。针对自然场景视频中的文本检测,本文提出结合文本与背景信息的视频文本检测方法。本方法将自然场景中文本与其附属的背景信息之间的共生关系作为视频图像文本检测的核心特征,用以提高传统方法中单纯依靠文本组件特征来检测文本的准确性。具体来说,为了找出视频图像中的文字组件前景,本方法提供了一种文本字符种子的定位和生长策略,同时将视频图像中提取到的一致性区域作为潜在字符背景的候选区域,然后通过有效洞检测、边缘一致性等约束条件得到字符背景区域。在得到字符前景和背景后,分别将两者作为二分有向图模型中的两个不相交的节点集合,并在此二分图模型(Bipartite Graph Model)上应用随机游走算法。然后应用组串策略进一步将该模型输出的字符结果组成文本字符串。为验证上述方法的有效性,本文在ICDAR2013、ICDAR2015等广泛采用的自然场景视频数据集上对论文方法进行了实验测试。实验结果表明,相对于已有方法,本文提出的基于时-空文本特征的视频文本显著性分析方法和结合文本与背景信息的视频文本检测方法有效提高了处理的精度,达到了预期的算法设计目标,同时具有在后续工作中进一步改进的潜力。
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.41
本文编号:2576271
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.41
【相似文献】
相关硕士学位论文 前4条
1 陈潇逸;基于显著性的图像智能处理与云应用的研究[D];华中科技大学;2013年
2 邢妍妍;基于多示例学习的群组图像协同显著性分析[D];北京交通大学;2016年
3 单苏苏;视频文本显著性分析与文本检测方法研究[D];南京大学;2017年
4 谢延涛;基于多示例学习的图像显著性分析[D];北京交通大学;2014年
,本文编号:2576271
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2576271.html