无线城市Web数据采集系统的设计与实现
发布时间:2019-08-28 08:03
【摘要】:随着我国信息化技术的快速发展,各种信息通信工具(如手机、互联网、移动互联网)不断推出,人们在享受这些工具所带来的便捷性的同时,已经悄然地改变了自己的工作和生活方式,并提出了更多的信息处理需求。面对各种各样的海量信息,如何为用户提供更快速、更准确、更便捷的信息获取和传播途径,成为信息供应商所要解决的重要问题之一。无线城市的概念随之产生,无线城市包括无线覆盖和无线应用两个层面,其中,无线应用是指市民可以通过手机和各种无线终端随时、随地、随需地获得与政务公开、公共事业服务、个人生活等相关的各种城市服务信息,由此可见,服务信息的采集是无线城市业务平台的一个重要环节。 本论文基于开源分布式计算平台Hadoop,实现了一个分布式爬虫系统。通过对Hadoop的两个核心技术HDFS(分布式存储系统)和MapReduce(分布式计算系统)进行深入的研究,以及充分收集系统的需求,提出了无线城市Wleb数据采集系统的设计方案,对系统的逻辑架构、物理部署架构、系统的工作流程、功能模块划分,以及系统中的数据结构进行了详细描述,并基于设计方案实现了系统的各个模块,重点介绍了各个模块的分布式执行过程。最后,本论文在不同规模的分布式集群测试环境中,对系统进行了功能测试和性能测试,验证了系统的可用性,并针对系统中存在的不完善的地方,提出了下一步的工作计划。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP274.2;TP338.8
本文编号:2530027
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP274.2;TP338.8
【参考文献】
相关期刊论文 前3条
1 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
2 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
3 许笑;张伟哲;张宏莉;方滨兴;;广域网分布式Web爬虫[J];软件学报;2010年05期
相关硕士学位论文 前4条
1 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
2 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年
3 苏晓珂;基于Nutch的主题爬虫研究与实现[D];昆明理工大学;2007年
4 程锦佳;基于Hadoop的分布式爬虫及其实现[D];北京邮电大学;2010年
,本文编号:2530027
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2530027.html