视频中人工文本的检测与提取
发布时间:2020-12-13 05:01
随着因特网、通信技术、智能手机行业等的飞速发展,视频的获取和传输变得极为便利。同时视频本身具有信息量丰富、观看舒适等优势,种种因素使得视频取代传统媒介成为最流行的媒体。目前上传、下载视频十分方便,线上视频的数量急剧增长。随之而来,如何从海量视频中高效地索引,检索和定位想要的视频内容成为了当下的热点问题。与低语义层级的感受信息(如纹理等)和其他高级语义信息(如视频中人物活动等)相比,视频中的人工文本能够更加直接、准确地描述视频内容。而且,通过对视频文本的分析可以帮助检测违法视频。提取视频文本的关键技术包括在复杂背景下准确地发现、确认和识别多语言、多字体的文本。在本文中,我们提出了一个新颖的结合了角响应特征图和迁移深度卷积神经网络的方法来检测和识别视频文本。首先,我们利用角响应特征图以高召回率找出候选文本区域;其次,我们利用两种投影分析方法将候选文本区域划分成候选文本行;然后,我们利用迁移学习,根据VGG16,ResNet50,InceptionV3构造真假文本行判别网络来去除假阳性样本;最终我们提出一个新颖的基于模糊C均值聚类的分离算法从复杂的背景中提取出干净的文本层送入商用光学字符识别...
【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
进行边缘检测的视频帧
第3章视频中人工文本的定位15图3-2该视频帧的边缘图由实验结果可以看出视频中人工文本区域的边缘相对来讲更多更密集,有助于我们高效地寻找出文本区域,但同时要注意到背景的部分区域边缘也很密集(如车轮部分),如果我们仅仅根据边缘的密集程度进行图像文本检测的话是远远不够精确的。又因为复杂背景下常常文本的边缘与背景的边缘会混在一起,所以难以准确定位文本行(如车轮边缘与字幕左侧边缘有重叠会影响文本行定位)。因此,使用边缘检测算子来实现视频帧中人工文本的准确检测是比较困难的。3.2利用角响应特征图检测图像文本区域视频中的人工文本通常是人为添加的视频补充信息,具有良好的可读性(尤其是字幕)。无论是何种语言、何种字体的文本字符都是由笔划的交叉形成,而笔划的交叉通常会导致很多角的产生,即字符所在的区域通常是角密集分布的区域,而背景通常不具有这个特性。相比于其他特征如边缘特征,角特征更加的稳定和鲁棒。因此,我们采用角响应变换得到角响应特征图,根据角响应特征图找到角密集分布区域,即认为是候选文本区域。3.2.1角点角点是二维图像中亮度变化剧烈的点,具体来讲就是二维图像中在多个方向都是边界的点,是图像的一个重要局部特征。视频中的人工文本字符由笔划交叉形成,因此视频中的人工文本区域角点丰富,而通常背景区域不具备这个特性。包含角点的小块区域就是角,通常角与相邻其他方向区域的灰度差异明显,以此为基础许多角检测的算法被提出。在文献[23]中,角检测的详细推导如下:对给定的一幅灰度图I,我们通过窗函数W(x,y)在图片上取相应的一块图像,
第3章视频中人工文本的定位17(a)输入视频帧(b)文本区域比背景具有更紧密的角(c)对角的不充分膨胀形成的候选文本区域(d)对角的过分膨胀形成的候选文本区域(e)一个较小的k对应的角分布(f)一个较大的k对应的角分布图3-3视频帧中的角分布3.2.2角响应特征图为了更好地利用图像文本区域有更多密集角的特性,同时受文献[48]的启发,我们采用连续的角响应特征图(CRM)来进行角检测,CRM是图像空间导数的函数,公式如下:222xyyyxxxyxyCRMDDDDDDD(3-11)其中xD和yD分别是图像I在x方向和y方向上的一阶导数,xxD和yyD分别是图像I在x方向和y方向上的二阶导数,xyD是图像I的混合导数。角就是角响应特征图的局部极大值区域。因此,我们不需要去确定角检测时使用的窗函数,也不需要确定公式(3-10)中的敏感系数k,就可以寻找出角区域,方法如下:我们用角响应特征图来描述角分布,然后用灰度形态学操作和自适应阈值来获得相应的角
本文编号:2913946
【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
进行边缘检测的视频帧
第3章视频中人工文本的定位15图3-2该视频帧的边缘图由实验结果可以看出视频中人工文本区域的边缘相对来讲更多更密集,有助于我们高效地寻找出文本区域,但同时要注意到背景的部分区域边缘也很密集(如车轮部分),如果我们仅仅根据边缘的密集程度进行图像文本检测的话是远远不够精确的。又因为复杂背景下常常文本的边缘与背景的边缘会混在一起,所以难以准确定位文本行(如车轮边缘与字幕左侧边缘有重叠会影响文本行定位)。因此,使用边缘检测算子来实现视频帧中人工文本的准确检测是比较困难的。3.2利用角响应特征图检测图像文本区域视频中的人工文本通常是人为添加的视频补充信息,具有良好的可读性(尤其是字幕)。无论是何种语言、何种字体的文本字符都是由笔划的交叉形成,而笔划的交叉通常会导致很多角的产生,即字符所在的区域通常是角密集分布的区域,而背景通常不具有这个特性。相比于其他特征如边缘特征,角特征更加的稳定和鲁棒。因此,我们采用角响应变换得到角响应特征图,根据角响应特征图找到角密集分布区域,即认为是候选文本区域。3.2.1角点角点是二维图像中亮度变化剧烈的点,具体来讲就是二维图像中在多个方向都是边界的点,是图像的一个重要局部特征。视频中的人工文本字符由笔划交叉形成,因此视频中的人工文本区域角点丰富,而通常背景区域不具备这个特性。包含角点的小块区域就是角,通常角与相邻其他方向区域的灰度差异明显,以此为基础许多角检测的算法被提出。在文献[23]中,角检测的详细推导如下:对给定的一幅灰度图I,我们通过窗函数W(x,y)在图片上取相应的一块图像,
第3章视频中人工文本的定位17(a)输入视频帧(b)文本区域比背景具有更紧密的角(c)对角的不充分膨胀形成的候选文本区域(d)对角的过分膨胀形成的候选文本区域(e)一个较小的k对应的角分布(f)一个较大的k对应的角分布图3-3视频帧中的角分布3.2.2角响应特征图为了更好地利用图像文本区域有更多密集角的特性,同时受文献[48]的启发,我们采用连续的角响应特征图(CRM)来进行角检测,CRM是图像空间导数的函数,公式如下:222xyyyxxxyxyCRMDDDDDDD(3-11)其中xD和yD分别是图像I在x方向和y方向上的一阶导数,xxD和yyD分别是图像I在x方向和y方向上的二阶导数,xyD是图像I的混合导数。角就是角响应特征图的局部极大值区域。因此,我们不需要去确定角检测时使用的窗函数,也不需要确定公式(3-10)中的敏感系数k,就可以寻找出角区域,方法如下:我们用角响应特征图来描述角分布,然后用灰度形态学操作和自适应阈值来获得相应的角
本文编号:2913946
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2913946.html