基于Hadoop的互联网新闻阅读系统的设计与实现

发布时间：2020-02-06 14:54

【摘要】：互联网的快速发展使得人们的阅读模式发生了转变,传统的阅读模式如报纸、杂志已不再是主流,更多的人倾向于更加便捷的互联网阅读。然而网页不止包含了供用户阅读的正文信息,还有大量与正文无关的噪声信息。Gibson等人曾做过统计,噪声信息占整个网页版面的40%到60%;此外,互联网包含大量重复网页,北大天网搜索引擎的实验结果表明,4.3亿的中文网页经过划分后仅有6800万篇是不重复的。因此,如何在海量新闻网页中获取不重复的、纯粹的正文内容,对实现用户高效阅读尤为重要。本文以国内主流新闻网站为研究对象,实现了对新闻网页正文的提取、对重复网页的去除,并且设计了基于Hadoop的互联网新闻阅读系统,其主要工作如下:1)对于噪声信息问题,本文提出了一种基于虚词(FW)和DOM树结构相似性(DTSS)的网页正文提取算法。对五十个新闻网站进行对比实验,基于FW-DTSS算法的F-score在大多数情况下是高于VIPS和WPMTE的,并且对每个新闻网站都可以保持在96%以上,均值在99%以上,对有些网站则可以达到100%。2)对于重复网页问题,本文提出了一种基于虚词(FW)和BloomFilter(BF)的网页去重算法。对URL集进行对比实验,基于FW-BF的算法对完全重复网页、部分重复网页、完全不重复网页的F-Score均高于99%;基于FW-BF的算法与Bloom Filter、Feature code相比,F-score基本持平但对整个URL集的运行时间最短,这三种算法运行时间分别为44s、56s、212s。3)本文结合了FW-DTSS和FW-BF的算法,基于Hadoop平台设计了一个实时的互联网新闻阅读系统。由于每日的新闻数有限,仅选取国内十个典型的主流新闻网站作为代表,该阅读系统允许用户自行订阅其中的一个或几个,自动完成对网页正文的抓取、重复网页的去除,最终反馈给用户纯粹的新闻标题和正文。
【图文】：

特征码

图 1.6 特征码结构网页的特征串的提取通常分为两步：首先选取网页正文中能代表一个句子含义的若干字符作为特征码，然后将选取出来的特征码按照它们在网页中的出现顺序拼接到一起构成网页的特征串。该方法不仅可以保证网页内容的完整性，还考虑了网页不同部分的连续性。在网页特征串的匹配过程中，采用的方法包括索引散列表[47]、关键词组成[48]以及字频匹配[49]等。1.2.3 Hadoop 分布式系统1.2.3.1 Hadoop 简介Hadoop[50-51]最早是源自于 Nutch。Nutch 是一个从互联网抓取网页的搜索引擎，它对抓取好的网页内容建立了索引，以便之后能更快捷准确的查询。然而互联网发展的迅猛使得网络数据海量增加，最终导致 Nutch 难以扩展。为了解决这一问题，Google 详细描述了自己的数据存储结构，并为此存储结构提出了新的文件系统 NDFS。之后在 2004 年，Google 又提出了 simplified data processing on large cluster[52]，即 MapReduce，这是分布式计算框架的首次提出。这新概念的提出轰动了全球引起了很多的讨论，随后 Google 确实实现了这一伟

文字,源码,预处理,例子

基于 Hadoop 的互联网新闻阅读系统的设计与实现<html><style···>···</style><head···>···</head><body><div···>文字段1</div><div><p>文字段2</p><input ··· /><p>文字<a>···</a>文字</p></div></body></html><html><body><div···><text>文字段1</text></div><div><p><text>文字段2</text></p><p><text>文字段3</text></p></div></body></html>(a) (b)图 2.3 网页源码预处理结果
【学位授予单位】：南京航空航天大学
【学位级别】：硕士
【学位授予年份】：2017
【分类号】：TP393.092;TP391.1

【参考文献】