基于Harris角点的网络视频中文本区域检测方法的研究
第 1 章 绪 论
1.1 研究背景及意义
随着互联网的迅猛发展,网络上的视频信息飞速增长,特别是优酷、腾讯等网站的出现,图片和视频等的多媒体的信息在上互联网越来越多。网络视频图像是流传在互联网上的视频图像的总称,网络视频图像种类繁多,内容不一。如图 1.1 所示,该图像是在优酷网上截取的网络视频中的一幅图像,该图像的长宽比为 16:9,图像的分辨率约为640*480,即 30 万像素点。整个视频约长 1 分 21 秒,也就是整个视频大约含有 2000 幅这样的图像。自 2010 年以来,随着网络通信速度的提升,伴随着互联网资源流通速度的爆炸式增长。在全部流动的互联网资源中,网络视频资源占有了极高的比例。根据中文互联网数据中心统计,仅仅在 2015 年,大陆地区网络资源的服务器存储市场交易总量超过 1个 EB,同时 IDC 曾经发出过预测,在之后的 1-2 年中国总存储市场交易可能到 18 个 EB,在 18EB 的数据中超过 30%会是网络视频数据资源。这种爆炸式的网络视频信息增长方式也带来了对大量多媒体信息进行有效检索的需求。通过对网络视频中的文字信息进行检索,可以直接的提取网络视频中所包含的信息。如图 1.2 所示,图像取自优酷网上的网络视频截图,可以清楚的看到每一幅图像中都有大量的文字信息,准确的提取这些文字信息对于研究视频内容和视频分类都有着直观重大的意义[2]。 如果想要获得网络视频中的文本信息,首先需要把在线的视频资源缓存到本地,得到一个本地的视频。然后再根据视频的码率切分成图像(如图 1.3 所示),网络上的视频一般是一秒钟 25 幅图像,通常的算法在一秒钟内提取出 5 幅进行分析。这样把动态视频文本定位问题转化成了静态图像的文本定位问题。通过对视频截图的文本区域的检测,鉴别和分析,最终将视频中全部的文本区域定位出来如图 1.4 所)。
..........
1.2 国内外研究现状
近些年来,国内外越来越多的研究者都围绕着视频图像的文本区域定位问题展开了一系列的研究和探索。由于图像文本区域的定位直接或者间接的使用到了很多的图像处理领域的技术并且涉及了很多学科的交叉知识(文本区域定位会涉及到视频图像的分帧策略,图像的数字处理,几何和光学诸多领域),所以视频图像的文本区域定位领域的研究始终会处在一个种多元化并存的阶段[8]。 视频图像的文本区域定位多元化并存不仅仅存在于对文本区域定位的原理和流程等方面的研究,同时还有很多研究集中在视频图像信息的提取和优化上一些核心技术和算法的研究,比如有大量针对视频图像灰度化处理[9],视频图像噪声处理等关键性算法的研究,除此之外,还有很多具有前瞻性和针对性的研究,国内外著名的研究机构和项目如下: (1)清华大学的智能图文信息处理研究室研发的 TH-ORC 别技术[10],这一文字识别技术中涵盖了图像中文本定位和文本识别。但是该技术效果在这识别一些视频截图和有着自然场景的文字区域的时候效果并不好。 (2)中科院研发的“汉王笔”文字识别技术[11],这项技术由汉王科技公司所有。汉王科技公司还有着很多类似产品的研发,他们研究的 Gabor 滤波边缘检测在图像文本区域定位方面有着不错的进展。 (3)Microsoft 在近几年也越来越重视文字识别领域[1]。微软的研究重点体现在微软手持设备汉字手写领域,通过手写出的图像判断文本区域和文字内容,进而使得计算机识别用户输入的文本。
............
第 2 章 网络视频文本区域定位的概述
2.1 流程概述
本章对网络视频文本区域定位算法流程进行了简单的概述。视频内文字识别算法流程主要由以下几个环节组成,如图 2.1 所示。所谓的 OCR 文字识别完整过程包含[26]:输入视频图像、图像预处理、图像文本区域检测、文本区域定位、文本区域内文字分割和分割后文字识别,最后分割文字语义。显而易见区域定位是最关键的步骤,文本区域定位的正确与否直接决定这最后 ORC 文字识别效果的好坏。这里提到的文本定位指的是在一幅网络视频图像中定位文字位置的过程。由于处理分割之后的文字技术已经相对繁多和成熟,只要文本区域定位足够清晰和准确就可以良好的完成文字识别的过程。所以可以认为文字信息的识别准确率,受文本区域定位准确率的制约。会出现在视频中的文字无非两种:后添加文本和背景中的文本。后添加文本一般会出现在网络视频中,比如在视频中人工添加的字幕信息,新闻中脚本字幕,记录视频的标题和时间等。背景文本是在视频拍摄的背景中出现的文字信息,比如在自然场景中背景中广告牌的信息,商品的包装等[27]。由于人工文本都是在一定的需求条件下增加,可以表明网络视频的视频内容,所以本文主要研究方向是针对人工文本的本文区域定位技术。 网络视频文本区域定位,就是通过计算机分割视频为一个个视频帧,然后利用各种不同的算法分割出文本区域的位置,准备送入 OCR 文字识别系统便于文字识别。人脑可以从各种图像中快速的分辨文字区域的准确位置,但这个简单的结果对算法来讲不是一件很简单的事情。一个算法可以从图像中找出文本区域,就要知道文本的特征。由于图像中的文字特别是网络视频图像的视频帧中文字完全没有也不可能有一个统一的样式和颜色,同时由于网络传输条件的限制网络图像的视频帧往往包含着大量的纹理和噪声,这些干扰因素都提高了文本定位的难度。总之,图像文本区域定位是一种结合数字图像,计算机视觉技术,神经网络等众多方面的复杂课题。
...........
2.2 视频获取
视频获取阶段的目标工作是采集原始网络视频。因为所要进行处理的视频文件不会直接保存在计算机本地,都是存在于互联网上的视频资源,所以需要先下载视频到本地,然后截取并处理成视频帧的形式供算法程序进行识别。 本文讨论的是网络视频文本区域定位,所以需要的实验素材是国内互联网上的视频资源。虽然这些视频资源都会长期存在于网络上,但是相应的网络供应商如优酷,乐视等并不会把所有的视频打包在一个地址供客户任意下载。所以需要组建一个有效的网络视频数据库的第一步是采集并下载到足够数量的网络视频资源信息[13]。网络爬虫技术是一种自动下载网络资源程序总称,通常应用于搜索引擎从互联网上爬取并缓存网页,供用户们去检索网络上的资源,是搜索引擎的重要组成技术之一,其基本架构如图 2.2 所示。通过上图我们可以得知,网络爬虫程序是从一个互联网网页开始,获得该网页上所有的有效 URL,随后访问这些 URL 所指向的网页,再次在这些网页上抓取新的 URL的过程。在不断地抓取新的网页的过程中,程序从新获得网络页面上获得新的符合爬取规则 URL 放入队列,直到满足爬虫程序预先设定的停止条件或者全部网页 URL 搜索完成。通过改进传统的网络爬虫算法,使得爬虫程序不下载网页的内容[14],而是针对网络上视频格式的下载链接起作用,只去爬取下载网站上的视频信息过滤掉其他的信息。通过一个网络爬虫程序,可以快速的爬取指定网站上的所有视频资源,从而快速的建立起一个有效合理的视频数据库。
...........
第 3 章 基于边缘特征的文本区域粗定位及筛选算法 ..... 12
3.1 引言 ...... 12
3.2 相关原理 ......... 12
3.3 文本区域文字边缘性研究 ......... 16
3.3.1 基于 K-means 聚类的自适应边缘提取 ........ 16
3.3.2 文字边缘性的特性 .... 16
3.3.3 形态学腐蚀和膨胀 .... 17
3.4 文字笔画识别 ..... 18
3.5 实验结果与分析 .......... 23
3.6 本章小结 ......... 26
第 4 章 基于彩色信息与角点的文本区域定位算法 ....... 27
4.1 引言 ...... 27
4.2 算法原理简介 ..... 27
4.3 HARRIS 角点算法 .... 28
4.4 基于彩色信息的 HARRIS 角点的文字区域定位算法 .......... 30
4.5 实验结果及分析 .......... 30
4.6 本章小结 ......... 37
第 5 章 总结与展望 .... 38
5.1 工作总结 ......... 38
5.2 研究展望 ......... 38
第 4 章 基于彩色信息与角点的文本区域定位算法
4.1 引言
在第 3 章的算法分析中,已经粗略的得到了一个文本的候选区域 M(m1,m2,m3…)。从之前的实验结果来看,经过拉普拉斯算子处理之后的文本区域粗定位的图像已经去除了大部分的无用背景纹理信息。但是处理过图像区域还是有很大一部分并不是文本区域,如果再用边缘算子来计算,由于图像分辨率有限,很难在有限的时间复杂度和空间复杂度内得到更好的算法效果,所以需要用更有针对性的角点算法非文本区域。 本章主要提出了基于彩色信息与角点的文本区域定位算法。这个算法主要解决在角点识别文本区域的过程中没有利用图像文字颜色信息一致性的特点来优化算法效果导致文本区域误匹配等问题。现有流行的角点识别文本区域的算法大体上可以总结为三种:基于灰度,基于二值和基于边缘。 其中的灰度图像文本区域检测又可以细化成基于梯度,基于模板和基于梯度模板组合的三不同的侧重点的方法。所谓的模板就是根据图像上像每一个点周围的灰度值的分布,把一个和周围像素点亮度(也就是灰度值)对比足够大的点定义为一个角点。二值图像的文本区域检测算法不适合含丰富有彩色信息的图像,因为图像的彩色值含有大量文字角点信息,直接二值化处理过于粗暴,很难有好的识别效果。基于边缘的文本区域定位算法把一个角点定义成一个线段和另一个线段相交的点。可是由于把图像边缘化的过程一般都比较复杂,会需要消耗大量的时间在得到边缘图像的部分。
............
总结
在导师的指导下,本文对网络视频图像中文本区域定位算法进行了一系列的学习和研究。主要作出了如下工作:
1. 阅读了大量的文献,了解图像文本定位领域的发展现状,学习了该领域内的相关知识。
2. 通过理论学习和实验分析了常见的图像文本区域定位算法适用范围和原因,总结出各种不同算法的优缺点和适用条件。
3. 分析了现有网络环境下网络视频的特点。结合中国网络环境下视频的特征提出了用拉普拉斯算子结合文字双边缘特征粗定位文本区域,,然后适用含有彩色信息的 Harris 角点精确定位视频帧内文字区域的算法。该算法时间复杂度较低,可以应对高速图像处理的需求。
.........
参考文献(略)
本文编号:133352
本文链接:https://www.wllwen.com/wenshubaike/shuzhibaogao/133352.html