音视频数据获取与同源性分析关键技术研究
发布时间:2020-05-08 14:17
【摘要】:我国的互联网正处于蓬勃发展中,人们在获取内容的方式上发生了巨大的变革,越来越多的网民喜欢通过音视频来获取信息。同时,各大网络视频网站纷纷提出泛娱乐内容新生态的建设,这对音视频数据挖掘提出了新的需求。本文研究了音视频数据挖掘的两个关键问题:第一个问题是音视频文本数据的获取,数据获取是web挖掘的基石;第二个问题是对音视频数据的同源性分析,同源性分析是通过分析真实世界中实体之间的相似关系,从而挖掘出网络视频网站中潜在的用户关系。基于分布式网络爬虫的数据获取技术是当前研究的主流方向,本文对现有的分布式网络爬虫系统进行了深入的研究。针对现有的开源爬虫框架对分布式支持的不足,本文设计了一套分布式网络爬虫系统,并给出了分布式任务调度算法。面对海量数据,为了提高系统的爬行效率,本文重点研究了URL去重和网页内容去重。对于URL去重,首先分析了传统BloomFilter的优缺点,然后对其进行了改进,降低了传统Bloom Filter误判率高的问题;对于网页内容去重,本文提出先对网页内容进行分词处理,再通过SimHash算法来判断当前页面是否已经存在的方法。论文通过实验证明了在海量数据下,本文提出的URL去重方法具有更低的误判率,以及提出的网页内容去重方法相比其他的算法具有明显的速度优势。本文对现有的社交网络用户关系挖掘进行了深入研究,提出了一种基于Sim Rank的音视频数据同源性分析方法,该方法可以计算出音视频分享者之间的相似度,通过相似度我们可以来度量这些音视频分享者之间的同源性。在海量数据面前,原始的SimRank计算时间耗费十分巨大,本文对原始的SimRank进行了基于MapReduce的分布式实现与分析,发现在分布式环境下,SimRank存在计算速度慢、通信量大等问题。最后本文对原有的分布式SimRank算法进行了改进。为了验证改进结果,论文在3个真实网络数据集和1个网络爬虫获取的数据集进行了实验,证明了改进的分布式Sim Rank更适合海量数据计算。最后,本文设计并实现了一套音视频数据获取与同源性分析系统,采用真实的网络视频网站的数据进行验证,结果分析表明本文设计的分布式网络爬虫系统能全面、快速地获取到音视频数据,本文提出的同源性分析方法能够挖掘出符合直观感受的用户关联信息。整个系统能够为泛娱乐内容新生态的建设提供全面准确的数据支持。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP393.092;TP391.1
本文编号:2654777
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP393.092;TP391.1
【参考文献】
相关期刊论文 前2条
1 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
2 王继民,彭波;搜索引擎用户访问量模型[J];计算机工程与应用;2004年25期
,本文编号:2654777
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2654777.html