当前位置:主页 > 管理论文 > 移动网络论文 >

Hadoop网页爬取系统的时间同步算法研究

发布时间:2017-10-20 12:40

  本文关键词:Hadoop网页爬取系统的时间同步算法研究


  更多相关文章: 敏感信息 侦测 Hadoop 复杂网络 时间同步


【摘要】:随着网络的快速普及,我国的网民人数已经达到了近7.5亿,占据了全球网民数据量的近百分之二十,如此量级的网民群体在网络空间上会产生海量的网络的信息。网络平台的快速发展和信息交互的更加频繁化使得人们之间的信息传递更加迅速和快捷,同时通过网络也使得经济结构形式更加合理、言论自由得到主张。但凡事有利即有弊,过度自由的网络环境和不可控性导致了网络犯罪的迅速蔓延、特别是网络赌博、色情、煽动性言论等信息在网络平台上滋生的非常快速。因此政府相关部门也十分重视网络良性发展的重要性。随着网络数据传输、存储和分析技术的不断发展,相关部门也开展了对网络上热点信息的获取与把控。这也正是大数据时代挖掘数据价值的分支。在此背景下,本文着眼于对网络话题检测算法的研究。文中首先介绍了本文的研究背景、明确了课题的研究意义。并查阅相关文献,介绍了话题检测技术的国内外研究现状;其次,详细介绍了课题研究所涉及到的相关技术和理论,具体包括Hadoop分布式爬取架构、网络数据爬取的基本原理、复杂网络理论和时间同步理论;再者文中对敏感信息数据爬取方案设计进行了详细阐述,明确网络话题检测的基础数据载体,并结合复杂网络理论,对敏感信息数据网页进行了复杂网络模型的构建与特性分析。在完成对网页的复杂网络模型研究后,文中针对该复杂网络分析了侦测算法时间同步的意义和需求,并给出了时间同步算法的改进方案。文中最后基于NS2仿真平台对改进后的算法进行了仿真分析与实验。本文的研究中,摒弃传统的研究网页文本信息手段,从网页元集群的时间同步特性出发展开研究分析,可以看出话题检测网页复杂网络模型下的时间同步算法研究与改进切实的提高了网页同步的精度,能够更准确的反应网民的话题趋向,这对于话题检测系统的信息捕获是具有重要意义的。
【关键词】:敏感信息 侦测 Hadoop 复杂网络 时间同步
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092
【目录】:
  • 摘要5-6
  • Abstract6-9
  • 第1章 绪论9-14
  • 1.1 研究背景及意义9-10
  • 1.2 国内外研究现状10-11
  • 1.3 研究内容及章节安排11-14
  • 1.3.1 研究内容11-12
  • 1.3.2 研究方法12
  • 1.3.3 章节安排12-14
  • 第2章 相关技术14-20
  • 2.1 Hadoop技术简介14-17
  • 2.1.1 HDFS14-15
  • 2.1.2 Map/Reduce15-17
  • 2.2 网络数据爬取17-18
  • 2.2.1 网络数据爬取工作原理17
  • 2.2.2 网络数据爬取基本结构17-18
  • 2.3 复杂网络18-19
  • 2.3.1 复杂网络概述18
  • 2.3.2 复杂网络表示方式18-19
  • 2.4 时间同步19-20
  • 第3章 敏感信息爬取方案设计20-35
  • 3.1 爬取结构设计20-22
  • 3.1.1 爬取基本流程设计20-21
  • 3.1.2 爬取方案的框架设计21-22
  • 3.2 各功能模块设计22-33
  • 3.2.1 Spider Driver模块设计23-25
  • 3.2.2 Trans XMLDriver模块设计25-28
  • 3.2.3 Analyzer Driver模块设计28-30
  • 3.2.4 Majorizater Driver模块设计30-32
  • 3.2.5 Synthesizer Driver模块设计32-33
  • 3.3 存储结构的实现33-35
  • 第4章 复杂网络模型构建及时间同步算法选择35-43
  • 4.1 参数改进及重定义35
  • 4.2 复杂网络模型构建35-37
  • 4.2.1 问题分析35-36
  • 4.2.2 网络模型特性36-37
  • 4.3 复杂网络中的时间同步需求分析37-38
  • 4.3.1 时钟漂移37-38
  • 4.3.2 时钟偏差38
  • 4.4 时间同步方法的选择38-43
  • 4.4.1 RBS算法38-39
  • 4.4.2 FTSP算法39
  • 4.4.3 DMTS算法39-40
  • 4.4.4 MINI-SYNC和TINY-SYNC算法40-41
  • 4.4.5 TPSN算法41-43
  • 第5章 算法研究与改进43-48
  • 5.1 TPSN算法改进方法的选择43-44
  • 5.2 TPSN-LS算法44-48
  • 第6章 仿真实验与分析48-54
  • 6.1 NS2仿真平台48
  • 6.2 TPSN-LS算法的实现48-51
  • 6.2.1 协议添加48-50
  • 6.2.2 算法的实现50-51
  • 6.3 仿真结果与分析51-54
  • 第7章 总结与展望54-55
  • 参考文献55-59
  • 致谢59

【相似文献】

中国期刊全文数据库 前10条

1 赵斌;贺鹏;;网络时间同步算法中时钟精度优化设计与实现[J];三峡大学学报(自然科学版);2008年02期

2 陶克,徐怡山,贺鹏;被动式时间同步算法的研究与软件编制[J];三峡大学学报(自然科学版);2004年01期

3 方祥;傅聪;陈国良;;网络时间同步算法及其实现[J];计算机工程与应用;1992年03期

4 贺鹏,李菁,吴海涛;网络时间同步算法研究与实现[J];计算机应用;2003年02期

5 杨崇;;一种被动式时间同步算法的研究与设计[J];信息技术;2006年10期

6 田俊峰;温怀湘;温玉;;一种新的建立在簇结构上的同步点时间同步算法[J];小型微型计算机系统;2010年03期

7 李秋灵;白焰;王仁书;;具有容错性的洪泛时间同步算法研究[J];计算机仿真;2013年12期

8 黄成芳;何迪;;无线传感器网络延迟层次型时间同步算法[J];计算机仿真;2008年10期

9 汪付强;曾鹏;于海斌;;一种低开销的双向时间同步算法[J];仪器仪表学报;2011年06期

10 盖旗涛;樊小平;蔡劏;王承新;;WSN时间同步算法研究[J];电子技术;2010年07期

中国重要会议论文全文数据库 前2条

1 谭晋;孙科;刘皓;;B3G MIMO-OFDM系统时间同步算法及FPGA实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年

2 徐林濵;雷霞;唐万斌;;一种OFDM系统中基于PN序列的低复杂度时间同步算法[A];2006中国西部青年通信学术会议论文集[C];2006年

中国博士学位论文全文数据库 前2条

1 吴杰;无线传感器网络时间同步算法研究[D];天津大学;2015年

2 李立;无线传感器网络时间同步算法研究[D];清华大学;2010年

中国硕士学位论文全文数据库 前10条

1 李思慧;无线车辆检测网络路由协议与时间同步算法研究[D];长安大学;2015年

2 严寒;MIMO-OFDM基带数据传输系统的设计与实现[D];北京化工大学;2015年

3 崔海伟;海洋传感器网络时间同步算法研究[D];青岛科技大学;2015年

4 张玉亮;多跳水下传感器网络时间同步算法研究[D];中国海洋大学;2015年

5 闫玉萍;煤矿电网输电线路故障检测的WSN时间同步算法研究[D];中国矿业大学;2016年

6 赵鹏;面向泛在协同环境的时间同步算法研究[D];南京邮电大学;2016年

7 魏炬熠;无线传感器网络时间同步算法的研究[D];合肥工业大学;2016年

8 代兵;Hadoop网页爬取系统的时间同步算法研究[D];河北大学;2016年

9 王施准;智能交通网络中的无线时间同步算法的设计与仿真[D];北京邮电大学;2011年

10 温怀湘;一种新的建立在簇结构上的同步点时间同步算法[D];河北大学;2010年



本文编号:1067252

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1067252.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5b3fd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com