当前位置:主页 > 管理论文 > 移动网络论文 >

基于Hadoop的互联网新闻阅读系统的设计与实现

发布时间:2020-02-06 14:54
【摘要】:互联网的快速发展使得人们的阅读模式发生了转变,传统的阅读模式如报纸、杂志已不再是主流,更多的人倾向于更加便捷的互联网阅读。然而网页不止包含了供用户阅读的正文信息,还有大量与正文无关的噪声信息。Gibson等人曾做过统计,噪声信息占整个网页版面的40%到60%;此外,互联网包含大量重复网页,北大天网搜索引擎的实验结果表明,4.3亿的中文网页经过划分后仅有6800万篇是不重复的。因此,如何在海量新闻网页中获取不重复的、纯粹的正文内容,对实现用户高效阅读尤为重要。本文以国内主流新闻网站为研究对象,实现了对新闻网页正文的提取、对重复网页的去除,并且设计了基于Hadoop的互联网新闻阅读系统,其主要工作如下:1)对于噪声信息问题,本文提出了一种基于虚词(FW)和DOM树结构相似性(DTSS)的网页正文提取算法。对五十个新闻网站进行对比实验,基于FW-DTSS算法的F-score在大多数情况下是高于VIPS和WPMTE的,并且对每个新闻网站都可以保持在96%以上,均值在99%以上,对有些网站则可以达到100%。2)对于重复网页问题,本文提出了一种基于虚词(FW)和BloomFilter(BF)的网页去重算法。对URL集进行对比实验,基于FW-BF的算法对完全重复网页、部分重复网页、完全不重复网页的F-Score均高于99%;基于FW-BF的算法与Bloom Filter、Feature code相比,F-score基本持平但对整个URL集的运行时间最短,这三种算法运行时间分别为44s、56s、212s。3)本文结合了FW-DTSS和FW-BF的算法,基于Hadoop平台设计了一个实时的互联网新闻阅读系统。由于每日的新闻数有限,仅选取国内十个典型的主流新闻网站作为代表,该阅读系统允许用户自行订阅其中的一个或几个,自动完成对网页正文的抓取、重复网页的去除,最终反馈给用户纯粹的新闻标题和正文。
【图文】:

特征码


图 1.6 特征码结构网页的特征串的提取通常分为两步:首先选取网页正文中能代表一个句子含义的若干字符作为特征码,然后将选取出来的特征码按照它们在网页中的出现顺序拼接到一起构成网页的特征串。该方法不仅可以保证网页内容的完整性,还考虑了网页不同部分的连续性。在网页特征串的匹配过程中,采用的方法包括索引散列表[47]、关键词组成[48]以及字频匹配[49]等。1.2.3 Hadoop 分布式系统1.2.3.1 Hadoop 简介Hadoop[50-51]最早是源自于 Nutch。Nutch 是一个从互联网抓取网页的搜索引擎,它对抓取好的网页内容建立了索引,以便之后能更快捷准确的查询。然而互联网发展的迅猛使得网络数据海量增加,最终导致 Nutch 难以扩展。为了解决这一问题,Google 详细描述了自己的数据存储结构,并为此存储结构提出了新的文件系统 NDFS。之后在 2004 年,Google 又提出了 simplified data processing on large cluster[52],即 MapReduce,这是分布式计算框架的首次提出。这新概念的提出轰动了全球引起了很多的讨论,随后 Google 确实实现了这一伟

文字,源码,预处理,例子


基于 Hadoop 的互联网新闻阅读系统的设计与实现<html><style···>···</style><head···>···</head><body><div···>文字段1</div><div><p>文字段2</p><input ··· /><p>文字<a>···</a>文字</p></div></body></html><html><body><div···><text>文字段1</text></div><div><p><text>文字段2</text></p><p><text>文字段3</text></p></div></body></html>(a) (b)图 2.3 网页源码预处理结果
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092;TP391.1

【参考文献】

相关期刊论文 前10条

1 潘心宇;陈长福;刘蓉;王美清;;基于网页DOM树节点路径相似度的正文抽取[J];微型机与应用;2016年19期

2 侯睿;吴婷婷;;命名数据网络中基于多级计数Bloom过滤器的名字查找方法研究[J];中南民族大学学报(自然科学版);2016年03期

3 符于江;;网页去重中的关键词和特征串提取[J];电子技术与软件工程;2016年17期

4 赵艳红;李洪奇;朱丽萍;詹坤林;;基于Bloom Filter的去重方法研究[J];计算技术与自动化;2016年01期

5 杨钦;杨沐昀;;一种基于标点密度的网页正文提取方法[J];智能计算机与应用;2015年04期

6 董微;倪宏;邓浩江;刘学;;针对Web信息抽取的数据交叉定位改进方法[J];网络新媒体技术;2015年04期

7 王智圣;李琪;汪静;印鉴;;基于隐式用户反馈数据流的实时个性化推荐[J];计算机学报;2016年01期

8 杨柳青;李晓东;耿光刚;;基于布局相似性的网页正文内容提取研究[J];计算机应用研究;2015年09期

9 曹玉娟;牛振东;赵X;彭学平;;基于概念和语义网络的近似网页检测算法[J];软件学报;2011年08期

10 安增文;徐杰锋;;基于视觉特征的网页正文提取方法研究[J];微型机与应用;2010年03期

相关博士学位论文 前1条

1 卜湛;在线网络社会行为特征研究及其应用[D];南京航空航天大学;2014年

相关硕士学位论文 前7条

1 胡波;基于视觉语义块的网页正文提取算法研究[D];浙江大学;2013年

2 寿泉;在线网络用户作者身份鉴定方法研究[D];南京航空航天大学;2012年

3 刘阳;基于内容的搜索引擎网页去重研究[D];江苏大学;2010年

4 姚漫;基于文本聚类的网页消重算法研究[D];北京交通大学;2008年

5 张娜;电子商务环境下的个性化信息推荐服务及应用研究[D];合肥工业大学;2007年

6 刘斌;基于Web的HTML网页清洗技术的研究与实现[D];华北电力大学(北京);2007年

7 白广慧;网页排重技术研究及应用[D];中国科学院研究生院(计算技术研究所);2006年



本文编号:2576924

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2576924.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户05ba5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com