当前位置:主页 > 管理论文 > 移动网络论文 >

基于内嵌字幕的近似视频网页去重研究与实现

发布时间:2017-10-13 01:08

  本文关键词:基于内嵌字幕的近似视频网页去重研究与实现


  更多相关文章: 近似视频网页 内嵌字幕 去重 LCS


【摘要】:随着互联网的飞速发展,大量网页内容的重复给人们带来了不便。在过去的十多年中,在线视频量呈指数增长,越来越多的人参与到了video-related活动,用户花在视频采集、编辑、上传、搜索以及查看的时间达到了空前水平。大规模的视频发布和分享,也使得近似重复内容频现的现象加重。于是,近似重复视频的检索(Near-Duplicate Video Retrieval,NDVR)成为了诸多新任务的关键。面对这种大量重复数据存在于网络中的现状,人们纷纷提出了诸多网页查重的方法,但是专门用于去除近似重复视频网页的方法却屈指可数。于是,本文针对含有内嵌字幕的视频,以其本身就是视频画面一部分内容的内嵌字幕为去重依据,提出一种基于内嵌字幕的网页视频去重方法,采用与视频内容具有高匹配性的内嵌字幕的文本信息,来完成去重工作。本文的主要研究工作如下:(1)抓取网页视频。本文所研究的去重方法是基于内嵌字幕进行的,那么内嵌字幕的提取自然就是最基本的工作,也是十分关键的步骤。于是,首先对如何完成自动提取视频内嵌字幕的工作进行探究,从而获取到字幕的文本文件。(2)获取内嵌字幕相似度。由于内嵌字幕具有不变性,故其文本文字的顺序必定是一致的,而LCS(Longest Common Subsequences最长公共子序列)算法严格有序,足以完成相似度的计算。于是采用LCS算法并加以实现,使之能符合本研究,得到两个内嵌字幕文本文件比较后的相似度。(3)设定去重标准。视频的字幕文本文件是根据视频内嵌字幕提取而来,而内嵌字幕又是视频画面的一部分,所以,从理论上说,两个重复视频的字幕应该完全一致,即去重标准应定为100%。但是,由于提取内嵌字幕时采用的是光学OCR的方法,在去除噪声影响过程中参数的设置会使得即使是两个相同内容的视频,若其分辨率等不同,提取出来的字幕也会有所偏差。另一方面,一些视频是其他视频的一部分,足够大时我们认为它们也重复。于是,实际上,一定的偏差是应该被允许的。我们采用实验数据以及数理统计知识,得到最能准确界定去重标准的值。(4)根据提出的基于内嵌字幕去除近似重复视频网页的思路,设计并实现了一个近似视频去重系统。在最后的实验部分,先从宏观上实现了系统总体结构,再进行详细设计,实现了系统的模块,最后综述了重要模块的功能及具体处理过程和实现细节。(5)为了验证所提出方法的有效性,对网络上采集次数排名前十的电影进行搜索,然后采用两种不同的方法进行去重,一种是现有的基于文件标题特征的去重方法,另一种则是本文所提出的依据内嵌字幕进行去重的方法,观察两种方法的再去重效果。实验结果表明,依据内嵌字幕对网络视频去重确实比已有方法更较为有效。
【关键词】:近似视频网页 内嵌字幕 去重 LCS
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 绪论10-18
  • 1.1 研究背景与意义10-12
  • 1.1.1 研究背景10-11
  • 1.1.2 研究意义11-12
  • 1.2 国内外研究现状12-15
  • 1.2.1 国内研究现状12-14
  • 1.2.2 国外研究现状14-15
  • 1.3 主要内容与论文安排15-18
  • 第2章 相关技术18-30
  • 2.1 Selenium18
  • 2.2 内嵌字幕等的提取18-24
  • 2.2.1 字幕的种类19-20
  • 2.2.2 OCR处理20-21
  • 2.2.3 OCR提取内嵌字幕21-24
  • 2.3 文本相似度算法24-26
  • 2.3.1 LCS问题求解原理24-25
  • 2.3.2 LCS算法原理(非连续)25
  • 2.3.3 本文的动态规划LCS算法25-26
  • 2.4 阈值的确定26-29
  • 2.4.1 一元线性回归27
  • 2.4.2 极大似然估计27-28
  • 2.4.3 回归效果检验28-29
  • 2.5 删除重复视频29
  • 2.6 本章小结29-30
  • 第3章 网页视频的抓取30-34
  • 3.1 视频抓取数据源30-31
  • 3.2 抓取过程31
  • 3.3 基于Selenium搭建框架31-33
  • 3.4 本章小结33-34
  • 第4章 阈值的确定34-38
  • 4.1 阈值的确定34-36
  • 4.2 本章小结36-38
  • 第5章 文本相似度算法38-42
  • 5.1 动态规划LCS算法38-39
  • 5.2 具体实现步骤39-41
  • 5.3 本章小结41-42
  • 第6章 实验系统设计与实验结果42-52
  • 6.1 实验系统总体结构42-45
  • 6.2 实验系统详细设计45-46
  • 6.3 去重模块46-47
  • 6.4 数据平台及数据获取47-48
  • 6.5 实验结果分析48-50
  • 6.5.1 性能评价指标48-49
  • 6.5.2 实验结果49-50
  • 6.6 本章小结50-52
  • 结论52-54
  • 参考文献54-58
  • 攻读硕士学位期间所发表的学术论文58-60
  • 致谢60

【参考文献】

中国期刊全文数据库 前2条

1 申晓;;如何编程实现快速LCS算法[J];电脑编程技巧与维护;2012年11期

2 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期



本文编号:1021944

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1021944.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8ee87***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com