基于段落指纹的大规模近似网页检测算法研究

发布时间：2019-09-19 13:48

【摘要】：随着信息技术的飞跃式发展,互联网进入了一个信息爆炸的时代,搜索引擎成为了人们获取信息最主要的途径。然而,互联网上存在很多近似网页,一方面加重了用户从中寻找有价值信息的负担,另一方面,为近似网页建立索引消耗了大量不必要的存储和计算资源,进而影响整个搜索引擎的质量和性能。可见,对网页进行近似检测不仅能够提高索引效率,节约存储资源,同时能够显著地提升搜索引擎的用户体验。本文首先对近似网页检测的研究现状做出综述,并对现有算法做出深入分析。随后,提出了一种基于加权DOM树的网页正文提取算法,通过实验验证了该算法在各类网页集上均获得高的正文提取准确率,并将其应用于本文的近似网页检测算法。接着,提出了一种基于段落指纹的近似网页检测算法,该算法充分利用了中文语言的语法结构、文章主题语义和HTML标签语义,实验数据表明,本文算法能够获得高的准确率和召回率。实现了三种已有的优秀近似网页检测算法,实验数据表明,本文算法在准确率、召回率、效率和指纹占用的存储资源这些关键方面均有优势。最后,基于MapReduce计算模型,对本文近似网页检测算法的并行化做出了深入研究,给出了详细的并行化设计方案,并在Hadoop分布式平台上实现了该方案。在不同的Hadoop集群规模下进行实验,数据表明,本文算法经过并行化设计后,效率得到了显著提升,很好地突破了单机处理的资源瓶颈,是一种能够适用于海量数据规模的且实际可行的方案。
【图文】：

互联网站,统计数据,网页

页虽然结构不尽相同，但是正文内容却都是重复的。搜索引擎的搜索返回结果中存在大量近似网页不仅加重了人们浏览和筛选信息的负担，而且占用了大量不必要的存储源，降低了索引效率，严重影响了搜索引擎的质量和性能。因此，在网页抓取后，须要首先对近似网页进行检测，并去除存在近似的网页，，进而提高索引效率与搜索引擎的用户体验。这就需要有效的大规模近似网页检测算法，快速准确地发现近似网页。1.1研究背景近年来，互联网技术得到迅猛的发展，越来越明显地改变着人们的生活，同时颠覆了传统的信息产生与传播方式，使信息处理进入了一个崭新的时代。根据Neteraft最新统计[，l，截至2011年11月，互联网上共有525，998，433个站点，站点数量比上一个月增长了4.3%，比2010年同期增长了约110.85%，可见互联网规模的发展是空前的。图1给出了从2003年至2011年的互联网站点数量增长趋势。若按照Netcraft估计的平均每个站点拥有273个网页标准进行计算，则目前互联网上网页的数量约为1，435亿。600，000，000

网页,主要步骤,检测算法,指纹

3.计算特征项的指纹，对特征项进行压缩或降维处理以方便存储和检索。4.基于特征指纹计算相似度，判定原始网页是否近似。对以上四个主要步骤的直观描述如图2.1所示。网网页预处理理理对正文进行特特特生成特征指纹纹纹基于特征指纹纹征征征征提取取取取取计算相似度度网页正文库网页指纹库近似网页图2.1近似网页检测算法主要步骤其中第一步是近似网页检测的一项前置工作，准确的正文提取是进行近似检测的重要前提，一般应用中作为独立于近似检测算法之外的模块，本文将在第3章中详细说明。8
【学位授予单位】：南京理工大学
【学位级别】：硕士
【学位授予年份】：2012
【分类号】：TP393.092

【参考文献】