基于Hadoop的互联网新闻阅读系统的设计与实现
【图文】:
图 1.6 特征码结构网页的特征串的提取通常分为两步:首先选取网页正文中能代表一个句子含义的若干字符作为特征码,然后将选取出来的特征码按照它们在网页中的出现顺序拼接到一起构成网页的特征串。该方法不仅可以保证网页内容的完整性,还考虑了网页不同部分的连续性。在网页特征串的匹配过程中,采用的方法包括索引散列表[47]、关键词组成[48]以及字频匹配[49]等。1.2.3 Hadoop 分布式系统1.2.3.1 Hadoop 简介Hadoop[50-51]最早是源自于 Nutch。Nutch 是一个从互联网抓取网页的搜索引擎,它对抓取好的网页内容建立了索引,以便之后能更快捷准确的查询。然而互联网发展的迅猛使得网络数据海量增加,最终导致 Nutch 难以扩展。为了解决这一问题,Google 详细描述了自己的数据存储结构,并为此存储结构提出了新的文件系统 NDFS。之后在 2004 年,Google 又提出了 simplified data processing on large cluster[52],即 MapReduce,这是分布式计算框架的首次提出。这新概念的提出轰动了全球引起了很多的讨论,随后 Google 确实实现了这一伟
基于 Hadoop 的互联网新闻阅读系统的设计与实现<html><style···>···</style><head···>···</head><body><div···>文字段1</div><div><p>文字段2</p><input ··· /><p>文字<a>···</a>文字</p></div></body></html><html><body><div···><text>文字段1</text></div><div><p><text>文字段2</text></p><p><text>文字段3</text></p></div></body></html>(a) (b)图 2.3 网页源码预处理结果
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092;TP391.1
【参考文献】
相关期刊论文 前10条
1 潘心宇;陈长福;刘蓉;王美清;;基于网页DOM树节点路径相似度的正文抽取[J];微型机与应用;2016年19期
2 侯睿;吴婷婷;;命名数据网络中基于多级计数Bloom过滤器的名字查找方法研究[J];中南民族大学学报(自然科学版);2016年03期
3 符于江;;网页去重中的关键词和特征串提取[J];电子技术与软件工程;2016年17期
4 赵艳红;李洪奇;朱丽萍;詹坤林;;基于Bloom Filter的去重方法研究[J];计算技术与自动化;2016年01期
5 杨钦;杨沐昀;;一种基于标点密度的网页正文提取方法[J];智能计算机与应用;2015年04期
6 董微;倪宏;邓浩江;刘学;;针对Web信息抽取的数据交叉定位改进方法[J];网络新媒体技术;2015年04期
7 王智圣;李琪;汪静;印鉴;;基于隐式用户反馈数据流的实时个性化推荐[J];计算机学报;2016年01期
8 杨柳青;李晓东;耿光刚;;基于布局相似性的网页正文内容提取研究[J];计算机应用研究;2015年09期
9 曹玉娟;牛振东;赵X;彭学平;;基于概念和语义网络的近似网页检测算法[J];软件学报;2011年08期
10 安增文;徐杰锋;;基于视觉特征的网页正文提取方法研究[J];微型机与应用;2010年03期
相关博士学位论文 前1条
1 卜湛;在线网络社会行为特征研究及其应用[D];南京航空航天大学;2014年
相关硕士学位论文 前7条
1 胡波;基于视觉语义块的网页正文提取算法研究[D];浙江大学;2013年
2 寿泉;在线网络用户作者身份鉴定方法研究[D];南京航空航天大学;2012年
3 刘阳;基于内容的搜索引擎网页去重研究[D];江苏大学;2010年
4 姚漫;基于文本聚类的网页消重算法研究[D];北京交通大学;2008年
5 张娜;电子商务环境下的个性化信息推荐服务及应用研究[D];合肥工业大学;2007年
6 刘斌;基于Web的HTML网页清洗技术的研究与实现[D];华北电力大学(北京);2007年
7 白广慧;网页排重技术研究及应用[D];中国科学院研究生院(计算技术研究所);2006年
,本文编号:2576924
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2576924.html