新闻视频图像文字定位与切分方法研究

发布时间：2019-12-06 00:31

【摘要】：近些年,伴随着计算机技术与多媒体信息技术的快速发展,视频和图像资源日益丰富起来,正逐渐成为人们进行信息交互的主流媒体,如何从这些海量的视频、图像中获取人们感兴趣的信息也正逐渐成为多媒体技术研究者们关注的热点。相对于颜色、亮度等低层信息,视频、图像中的文字信息属于高层语义信息,是理解视频和图像内容的重要线索,同时获取视频、图像中的这些文字信息对于建立基于内容的视频与图像检索系统也具有极其重要的价值。新闻视频中的字幕信息属于高层语义信息,通常是对某一新闻事件的概括总结,为理解新闻视频内容提供了重要的线索。因此,获取新闻视频中的字幕信息,有助于对新闻视频内容的自动标注,同时也有利于快速建立基于内容的新闻视频索引系统。本文主要面向新闻视频图像,针对文字提取的相关关键技术展开研究,主要包括新闻视频图像中标题字幕区域检测定位算法研究及文字行切分算法研究,并获得了一些研究成果,具体工作如下:(1)新闻视频图像中,字幕背景通常复杂多变,造成直接获取字幕信息具有一定的难度,检测定位字幕区域是获取字幕信息的重要前提。本文主要面向新闻视频图像中标题字幕,基于图像中文字丰富的边缘特性,并结合新闻视频图像中字幕的属性特征(位置、尺寸等),提出了一种基于最大特征得分区域(Maximum Feature Score Region,MFSR)的标题字幕检测定位算法。相比于传统的基于投影直方图的检测定位算法,本文算法的检测定位精度更高,同时该算法可以应用于电影、电视剧等视频图像对话字幕的检测定位,且对不同国家的语言文字不敏感。(2)文字识别准确率对于准确地获取文字信息具有极其重要的影响,为了降低视频图像文字的识别难度,提高文字识别准确率,针对文字切分算法进行了研究。本文主要以新闻视频图像中的标题字幕行(以中文汉字为主)为切分对象,结合字幕行的结构特点,提出了一种基于模板匹配的文字切分算法。该算法以文字整体分布为对象,根据模板函数的响应值确定合适的切分路径,有效地克服了传统算法易分裂汉字的问题。
【学位授予单位】：河南理工大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP391.41

【相似文献】