当前位置:主页 > 文艺论文 > 广告艺术论文 >

视音频信息融合算法研究

发布时间:2018-11-28 14:54
【摘要】:近年来,随着计算机信息化进程的发展,越来越多的视频设备以及技术应用到人们的学习以及日常生活中。视频会议、视频搜索引擎技术以及视频数据查询等等技术的应用,在包括电影、电视、会议记录、科学文献等众多领域产生了大量的非文本数据。对于个人而言,个人摄影设备的普及,以及互联网技术的改进,让普通人发布个人拍摄视频变得极其简单,也因此产生了大量的视频数据。如何处理如此众多的多媒体信息,如何组织数据并对其建立索引进行检索,对现有的视频处理技术是个严峻考验。 早期的多媒体信息检索算法已经偏离了便宜操作的最初目的,未来检索算法的设计需要融合底层更多具有代表性的视觉、听觉、语义特征。视频信息的多模态性质为信息融合提供了基础。现有的分析融合技术大多针对单一模态,但是视频是具有多模态性质的特殊数据,并且在描述同一主题时,其包含的多种模态具有很大关联性。因此需要一种有效的方法对视频进行融合分析,用于更加准确地对视频进行分类和检索。本文在处理视频特征、融合视频特征过程中的主要工作如下: 1、针对目前处理视频数据的模型定义局限于新闻、广告等特定领域,并且处理过程中使用的处理技术过于单一、陈旧,本文采用研究分析证明的一系列相对高效的视频处理技术定义了一个相对完备的视频检索预处理模型。该模型利用视频底层特征的多模态性质,提取出视频的时间结构,然后对内容进行特征提取,从原始视频中构造出视频数据的子集。本文基于此过程提取出视频的关键帧,并从视频的音频流中提取出音频特征。为简化运算,对提取出的底层特征统一进行降维处理,本文采用的降维算法为Shuicheng Yan等人最新研究的——边际fisher分析降维算法,该方法优于目前通常采用的PCA、LDA等降维算法。根据得到的各种特征向量,利用鲁棒性较好的支持向量机SVM分类器分类处理。 2、在对基于多模态特征的分类结果进行融合时,提出了一种改进的MGR融合算法。依据特征向量经分类器处理后输出的样本序号矩阵,基于Melnik等设计的融合框架,为实现置信度和优先权的优化,设计了一个融合分数函数来改进MGR算法。改进后的算法比起MGR算法,降低了计算量,并且减少了参数数量,在识别率方面也有一定的改善。
[Abstract]:In recent years, with the development of computer information technology, more and more video equipment and technology are applied to people's learning and daily life. The application of video conference, video search engine technology and video data query technology has produced a lot of non-text data in many fields, such as film, television, meeting record, scientific literature and so on. For individuals, the popularity of personal photography devices and improvements in Internet technology have made it extremely easy for ordinary people to publish personal videos, resulting in a lot of video data. How to deal with so many multimedia information and how to organize and index the data is a severe test to the existing video processing technology. The early multimedia information retrieval algorithm has deviated from the original purpose of cheap operation. In the future, the design of retrieval algorithm needs to integrate more representative visual, auditory and semantic features. The multimodal nature of video information provides the basis for information fusion. Most of the existing analysis fusion techniques are aimed at single mode, but video is a special data with multi-modal properties, and when describing the same topic, it contains a lot of modes with great relevance. Therefore, an effective method for video fusion and analysis is needed to classify and retrieve video more accurately. The main work of this paper in the process of processing video features and merging video features is as follows: 1. The definition of model for processing video data is limited to specific fields such as news, advertising and so on. And the processing technology used in the processing process is too single and obsolete. In this paper, a relatively complete video retrieval preprocessing model is defined by a series of relatively efficient video processing techniques proved by research and analysis. In this model, the temporal structure of video is extracted by using the multi-modal properties of the bottom features of video, and then the content is extracted and a subset of video data is constructed from the original video. Based on this process, the key frame of video is extracted and audio features are extracted from audio stream of video. In order to simplify the operation and reduce the dimension of the extracted bottom features uniformly, the dimensionality reduction algorithm used in this paper is the marginal fisher analysis dimension reduction algorithm, which is recently studied by Shuicheng Yan et al. This method is superior to the PCA,LDA equal-dimension reduction algorithm which is usually used at present. According to the obtained feature vectors, a robust support vector machine (SVM) SVM classifier is used. 2. An improved MGR fusion algorithm is proposed when the classification results based on multi-modal features are fused. Based on the sample ordinal matrix of the feature vector processed by classifier and based on the fusion framework designed by Melnik and so on, a fusion fraction function is designed to improve the MGR algorithm in order to optimize confidence and priority. Compared with the MGR algorithm, the improved algorithm reduces the computational complexity, reduces the number of parameters, and improves the recognition rate.
【学位授予单位】:太原理工大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.41

【相似文献】

相关期刊论文 前10条

1 张建明;李梅;李广翠;;基于Simfusion和本体的视频语义提取[J];计算机工程;2011年15期

2 王晨晖;管凤旭;宋新景;马也;;掌纹和三维手形的多模态图像采集装置设计[J];自动化技术与应用;2011年07期

3 周文娟;;基于Pervasive Computing技术的外语网络交互模态话语构想[J];现代教育技术;2011年06期

4 胡校成;张卫明;俞能海;;针对指纹模板的可逆信息隐藏编码方法[J];中国科学技术大学学报;2011年07期

5 张大明;符茂胜;罗斌;;基于广义积分平方误差谱选择的图像分割[J];模式识别与人工智能;2011年02期

6 许磊;熊志广;邵有为;;一种移动多Sink无线传感器网络监测系统[J];现代电子技术;2011年11期

7 高伟超;;浅谈电气自动化的发展[J];现代营销(学苑版);2011年07期

8 王斌;郭攀;张坤;黄乐;;基于计算机视觉技术的人脸检测系统设计[J];电子设计工程;2011年16期

9 徐玲;;论模仿讽刺作品对合理使用制度的考量[J];成都纺织高等专科学校学报;2011年03期

10 ;[J];;年期

相关会议论文 前10条

1 王宁;;严重脑血管病人的多模态监测[A];第二届中西医结合脑病诊治新进展高级研讨班专家讲义及论文汇编[C];2010年

2 梁胜;张春富;李彪;;干细胞追踪用PET/SPECT/MRI/Fluo多模态探针设计探讨[A];中华医学会第九次全国核医学学术会议论文摘要汇编[C];2011年

3 向良忠;邢达;杨思华;;光声肿瘤分子成像[A];第七届全国光生物学学术会议论文摘要集[C];2010年

4 李丹;林超;吕中伟;;多模态磁性-荧光可降解纳米探针的研制及成像研究[A];中华医学会第九次全国核医学学术会议论文摘要汇编[C];2011年

5 王志刚;;模态超声造影剂研究进展[A];2010年超声医学和医学超声论坛会议论文集[C];2010年

6 梁坚;杨永臻;;一种多模态自适应模糊控制器[A];1995年中国智能自动化学术会议暨智能自动化专业委员会成立大会论文集(上册)[C];1995年

7 杨陈科;陶霖密;;情感信息实验平台的设计与实现[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

8 黄本才;齐辉;陈勇;;体育场悬挑屋盖多模态和交叉项对风激动力响应的影响[A];第八届全国振动理论及应用学术会议论文集摘要[C];2003年

9 党军;;双语词典的多模态化——用户·词典·编者[A];福建省外国语文学会2010年年会论文集[C];2010年

10 钟若飞;郭华东;王为民;朱博勤;;SZ-4多模态传感器辐射模态数据处理与应用评价研究[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年

相关重要报纸文章 前10条

1 浙江大学教授 胡晓云 本报记者 孙鲁威;坚持多模态产业模式[N];农民日报;2011年

2 记者 刘垠;在分子水平上认识疾病[N];大众科技报;2009年

3 记者 刘正午;贺斌:站在读脑技术前沿[N];医药经济报;2010年

4 胡兆燕;重要的是本领[N];中国财经报;2004年

5 本报记者 罗朝淑;多模态神经成像:让大脑病灶无处可逃[N];科技日报;2010年

6 ;HVD:技术优势是制胜关键[N];中国电子报;2005年

7 ;塑料将用于制造新型显示器[N];计算机世界;2004年

8 本报记者 尹一捷;邓中翰:中国“无芯”历史的终结者[N];计算机世界;2010年

9 陈慕鸿;海信电器 数字电视获突破[N];证券日报;2004年

10 ;立足根本 服务用户[N];中国电脑教育报;2003年

相关博士学位论文 前10条

1 张征;英语课堂多模态读写能力实证研究[D];山东大学;2011年

2 李洁;多模态脑电信号分析及脑机接口应用[D];上海交通大学;2009年

3 江e,

本文编号:2363195


资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2363195.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d4e62***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com