基于多模态特征的新闻视频语义分析
本文选题:标题文字检测 + 多模态特征 ; 参考:《西安电子科技大学》2012年硕士论文
【摘要】:随着计算机网络和多媒体技术的飞速发展,数字视频在人们的生活中成为不可或缺的信息载体。如何帮助人们从海量视频数据中找到自己感兴趣的内容?国家有关部门如何对危害社会稳定、团结和影响青少年健康成长的不良视频内容进行有效监管?基于语义的多媒体信息检索,视频语义内容安全分析是处理上述问题亟需攻克的技术难题。视频数据包含着丰富的语义内容,作为视频的一种高级语义线索,视频中的文本(包括主题字幕信息和语音脚本)所包含的信息对于视频内容的理解具有很高的价值。如何从视频中检测、抽取主题字幕,如何得到视频语音脚本,如何对同一视频故事的字幕信息和音频脚本进行有效融合等是视频语义信息提取的关键问题。 本文提出了一种基于多模态特征融合的新闻视频语义信息提取框架。首先,对主题字幕进行检测、定位、识别;其次,对视频中的音频信息进行分类和语音识别;最后,为解决语音识别结果错误率较高的问题,由主题字幕信息通过搜索引擎得到与视频故事相关的网页,利用网页文本对语音识别的结果纠错。通过自然语言层次上视频字幕信息和音频信息的跨模态融合提高了视频语义提取的准确率。 通过对中等规模的实验数据集(包括视频数据和网页库)的测试,结果表明本文提出的分析研究方法的有效性,经纠错后的语音识别准确率达到65%左右。
[Abstract]:With the rapid development of computer network and multimedia technology, digital video has become an indispensable information carrier in people's life. How to help people find out what they are interested in from the huge amount of video data? How can the relevant departments of the state supervise the harmful video content that endangers social stability, unites and affects the healthy growth of young people? Based on semantic multimedia information retrieval, security analysis of video semantic content is a technical problem that needs to be solved urgently. Video data contains abundant semantic content. As a kind of advanced semantic clue of video, the information contained in video text (including topic caption information and voice script) is of great value to the understanding of video content. How to detect, extract topic subtitles from video, how to get video voice script, and how to fuse the subtitle information and audio script of the same video story effectively are the key problems of video semantic information extraction. This paper presents a semantic information extraction framework for news video based on multimodal feature fusion. First, detect, locate and recognize the topic subtitles; secondly, classify and recognize the audio information in the video; finally, in order to solve the problem of high error rate of speech recognition results, The text of the web page is used to correct the result of speech recognition by using the topic subtitle information through the search engine to get the web page related to the video story. The accuracy of video semantic extraction is improved by cross-modal fusion of video subtitle information and audio information at natural language level. The experimental data sets (including video data and webpage library) are tested. The results show that the proposed method is effective and the accuracy of speech recognition is about 65% after error correction.
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.41
【参考文献】
相关期刊论文 前9条
1 李雪龙;封化民;刘飚;焦黎冰;;一种改进的视频标题检测与提取方法[J];江西师范大学学报(自然科学版);2008年02期
2 李红莲,袁保宗,王春花;利用背景知识提高web语音浏览中的识别精度的方法[J];电子学报;2002年12期
3 王惠锋 ,孙正兴 ,王箭;语义图像检索研究进展[J];计算机研究与发展;2002年05期
4 刘亚楠;吴飞;庄越挺;;基于多模态子空间相关性传递的视频语义挖掘[J];计算机研究与发展;2009年01期
5 韦向峰;张全;熊亮;;一种基于语义分析的汉语语音识别纠错方法[J];计算机科学;2006年10期
6 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
7 王鹏,蔡锐,杨士强;“文本为主”的多模态特征融合的新闻视频分类算法[J];清华大学学报(自然科学版);2005年04期
8 梁金明;魏正曦;;Ostu算法的改进研究[J];四川理工学院学报(自然科学版);2010年05期
9 白栓虎;基于统计的汉语词性自动标注方法[J];语文建设;1994年10期
相关博士学位论文 前1条
1 魏思;基于统计模式识别的发音错误检测研究[D];中国科学技术大学;2008年
相关硕士学位论文 前4条
1 江超;视频语义提取分析研究[D];西安电子科技大学;2011年
2 王艳;基于主题字幕提取的新闻视频检索研究[D];南京理工大学;2008年
3 张洋;电视视频字幕文字的提取方法研究[D];中国科学技术大学;2009年
4 龙丽霞;基于实例语境的语音识别后文本检错与纠错研究[D];北京邮电大学;2010年
,本文编号:1896118
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1896118.html