视音频信息融合算法研究
[Abstract]:In recent years, with the development of computer information technology, more and more video equipment and technology are applied to people's learning and daily life. The application of video conference, video search engine technology and video data query technology has produced a lot of non-text data in many fields, such as film, television, meeting record, scientific literature and so on. For individuals, the popularity of personal photography devices and improvements in Internet technology have made it extremely easy for ordinary people to publish personal videos, resulting in a lot of video data. How to deal with so many multimedia information and how to organize and index the data is a severe test to the existing video processing technology. The early multimedia information retrieval algorithm has deviated from the original purpose of cheap operation. In the future, the design of retrieval algorithm needs to integrate more representative visual, auditory and semantic features. The multimodal nature of video information provides the basis for information fusion. Most of the existing analysis fusion techniques are aimed at single mode, but video is a special data with multi-modal properties, and when describing the same topic, it contains a lot of modes with great relevance. Therefore, an effective method for video fusion and analysis is needed to classify and retrieve video more accurately. The main work of this paper in the process of processing video features and merging video features is as follows: 1. The definition of model for processing video data is limited to specific fields such as news, advertising and so on. And the processing technology used in the processing process is too single and obsolete. In this paper, a relatively complete video retrieval preprocessing model is defined by a series of relatively efficient video processing techniques proved by research and analysis. In this model, the temporal structure of video is extracted by using the multi-modal properties of the bottom features of video, and then the content is extracted and a subset of video data is constructed from the original video. Based on this process, the key frame of video is extracted and audio features are extracted from audio stream of video. In order to simplify the operation and reduce the dimension of the extracted bottom features uniformly, the dimensionality reduction algorithm used in this paper is the marginal fisher analysis dimension reduction algorithm, which is recently studied by Shuicheng Yan et al. This method is superior to the PCA,LDA equal-dimension reduction algorithm which is usually used at present. According to the obtained feature vectors, a robust support vector machine (SVM) SVM classifier is used. 2. An improved MGR fusion algorithm is proposed when the classification results based on multi-modal features are fused. Based on the sample ordinal matrix of the feature vector processed by classifier and based on the fusion framework designed by Melnik and so on, a fusion fraction function is designed to improve the MGR algorithm in order to optimize confidence and priority. Compared with the MGR algorithm, the improved algorithm reduces the computational complexity, reduces the number of parameters, and improves the recognition rate.
【学位授予单位】:太原理工大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.41
【相似文献】
相关期刊论文 前10条
1 张建明;李梅;李广翠;;基于Simfusion和本体的视频语义提取[J];计算机工程;2011年15期
2 王晨晖;管凤旭;宋新景;马也;;掌纹和三维手形的多模态图像采集装置设计[J];自动化技术与应用;2011年07期
3 周文娟;;基于Pervasive Computing技术的外语网络交互模态话语构想[J];现代教育技术;2011年06期
4 胡校成;张卫明;俞能海;;针对指纹模板的可逆信息隐藏编码方法[J];中国科学技术大学学报;2011年07期
5 张大明;符茂胜;罗斌;;基于广义积分平方误差谱选择的图像分割[J];模式识别与人工智能;2011年02期
6 许磊;熊志广;邵有为;;一种移动多Sink无线传感器网络监测系统[J];现代电子技术;2011年11期
7 高伟超;;浅谈电气自动化的发展[J];现代营销(学苑版);2011年07期
8 王斌;郭攀;张坤;黄乐;;基于计算机视觉技术的人脸检测系统设计[J];电子设计工程;2011年16期
9 徐玲;;论模仿讽刺作品对合理使用制度的考量[J];成都纺织高等专科学校学报;2011年03期
10 ;[J];;年期
相关会议论文 前10条
1 王宁;;严重脑血管病人的多模态监测[A];第二届中西医结合脑病诊治新进展高级研讨班专家讲义及论文汇编[C];2010年
2 梁胜;张春富;李彪;;干细胞追踪用PET/SPECT/MRI/Fluo多模态探针设计探讨[A];中华医学会第九次全国核医学学术会议论文摘要汇编[C];2011年
3 向良忠;邢达;杨思华;;光声肿瘤分子成像[A];第七届全国光生物学学术会议论文摘要集[C];2010年
4 李丹;林超;吕中伟;;多模态磁性-荧光可降解纳米探针的研制及成像研究[A];中华医学会第九次全国核医学学术会议论文摘要汇编[C];2011年
5 王志刚;;模态超声造影剂研究进展[A];2010年超声医学和医学超声论坛会议论文集[C];2010年
6 梁坚;杨永臻;;一种多模态自适应模糊控制器[A];1995年中国智能自动化学术会议暨智能自动化专业委员会成立大会论文集(上册)[C];1995年
7 杨陈科;陶霖密;;情感信息实验平台的设计与实现[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
8 黄本才;齐辉;陈勇;;体育场悬挑屋盖多模态和交叉项对风激动力响应的影响[A];第八届全国振动理论及应用学术会议论文集摘要[C];2003年
9 党军;;双语词典的多模态化——用户·词典·编者[A];福建省外国语文学会2010年年会论文集[C];2010年
10 钟若飞;郭华东;王为民;朱博勤;;SZ-4多模态传感器辐射模态数据处理与应用评价研究[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年
相关重要报纸文章 前10条
1 浙江大学教授 胡晓云 本报记者 孙鲁威;坚持多模态产业模式[N];农民日报;2011年
2 记者 刘垠;在分子水平上认识疾病[N];大众科技报;2009年
3 记者 刘正午;贺斌:站在读脑技术前沿[N];医药经济报;2010年
4 胡兆燕;重要的是本领[N];中国财经报;2004年
5 本报记者 罗朝淑;多模态神经成像:让大脑病灶无处可逃[N];科技日报;2010年
6 ;HVD:技术优势是制胜关键[N];中国电子报;2005年
7 ;塑料将用于制造新型显示器[N];计算机世界;2004年
8 本报记者 尹一捷;邓中翰:中国“无芯”历史的终结者[N];计算机世界;2010年
9 陈慕鸿;海信电器 数字电视获突破[N];证券日报;2004年
10 ;立足根本 服务用户[N];中国电脑教育报;2003年
相关博士学位论文 前10条
1 张征;英语课堂多模态读写能力实证研究[D];山东大学;2011年
2 李洁;多模态脑电信号分析及脑机接口应用[D];上海交通大学;2009年
3 江e,
本文编号:2363195
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2363195.html