专业镇信息爬取子系统的设计与实现

发布时间：2017-05-21 15:24

本文关键词：专业镇信息爬取子系统的设计与实现，由笔耕文化传播整理发布。

【摘要】：随着广东省经济的飞速发展,一些在省内占有优越的地理位置、文化环境和信息条件的市镇出现了许多有一定规模的中小微企业。这些镇内的企业常常联合起来,针对某一产业,各自分工合作,从而谋得发展。经过多年的优胜劣汰,省内的许多市镇都形成了自己的特色产业,特色品牌。然而,这些镇与镇之间的联系比较少,缺乏信息沟通的渠道。而且,镇内的企业都缺乏一个能够进行信息共享、展现自我的信息服务平台。在信息网络蓬勃发展的现在,这些专业镇明显跟不上时代的脚步。因此,急需一个平台来整合产业信息资源,提供信息交互的渠道,通过信息网络创新技术保证信息的完整以及安全,为企业的发展提供一个有效的、可行的策略。而广东省专业镇信息服务平台迎合了这些需求。本论文来源于“广东省专业镇信息服务平台”项目。在专业镇信息平台中,我们需要对专业镇平台三大数据库的数据进行采集工作,为了高效准确地获取数据源,本文设计了一个专业镇信息爬取子系统来实现从互联网上抓取数据,解析数据并将数据导入平台系统中。论文主要完成了以下工作:对信息平台发展动态以及爬虫研究现状做了简单的介绍;阐述平台系统的总体设计思路与组织架构,平台的前端页面技术以及后端的企业内容管理系统。通过分析平台的处理流程和网络结构,描述平台的实现过程。设计并实现爬取子系统,爬取各类网站的海量数据,根据信息平台数据库需求的数据类型与格式,对获取的数据源进行结构化处理。通过网页内容主题相关策略对信息的有效性进行了验证。最后将爬取的数据源存储在数据库管理系统中,爬取结束后,把数据库文件进行分类处理,并将其批量导入专业镇信息平台的后台数据库。实现了信息平台数据和采集数据的融合。
【关键词】：信息服务平台 网络爬虫 数据源
【学位授予单位】：华南理工大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP311.52;TP393.09
【目录】：

摘要5-6
Abstract6-11
第一章绪论11-16
1.1 课题研究的背景及意义11-12
1.2 国内外研究现状12-14
1.2.1 国内外专业镇信息化研究现状12-13
1.2.2 国内外网络爬虫研究现状13-14
1.3 论文的研究内容及论文结构14-16
第二章相关技术介绍16-24
2.1 爬虫技术的简介16-17
2.2 基于Scrapy的网页抓取技术17-18
2.2.1 python爬虫框架Scrapy17-18
2.2.2 Xpath介绍18
2.3 基于BeautifulSoup的网页解析技术18-19
2.3.1 Urllib库18
2.3.2 BeautifulSoup解析器18-19
2.4 专业镇信息服务平台的开发技术19-23
2.4.1 J2EE概念和结构19-20
2.4.2 J2EE主要技术20-21
2.4.3 Web应用框架21
2.4.4 Web Services21-22
2.4.5 企业内容管理系统22-23
2.5 本章小结23-24
第三章平台的总体设计24-31
3.1 系统的需求分析24-26
3.1.1 前端系统功能性需求25
3.1.2 后台系统的功能性需求25
3.1.3 平台系统的用例25-26
3.2 系统的流程处理26-28
3.3 系统的软件结构28-30
3.4 系统的网络结构30
3.5 本章小结30-31
第四章爬取子系统的设计31-47
4.1 子系统的爬取目标31-32
4.2 子系统的功能结构32-33
4.3 子系统的软件结构33-37
4.4 子系统的流程处理37-38
4.5 子系统的抓取策略38-40
4.5.1 深度优先遍历策略38-39
4.5.2 网页内容主题相关策略39-40
4.6 子系统的接口设计40-42
4.7 数据库的设计42-46
4.7.1 创新资源库42-44
4.7.2 市场信息库44-46
4.7.3 企业技术需求库46
4.8 本章小结46-47
第五章子系统的详细设计及关键技术的应用47-64
5.1 抓取信息模块的设计47-48
5.2 信息存储模块的设计48-51
5.3 内容处理模块的设计51-53
5.4 Web信息抓取框架Scrapy的应用53-60
5.4.1 Spider的具体应用53-55
5.4.2 CSS选择器和Xpath的具体应用55-58
5.4.3 模拟登录抓取网页内容58-60
5.5 HTML/XML解析器BeautifulSoup的应用60-63
5.5.1 静态网页内容提取60-62
5.5.2 抓取动态网页62-63
5.6 本章小结63-64
第六章系统测试64-72
6.1 系统测试概述64-65
6.2 网络爬虫子系统的功能测试65-70
6.3 网络爬虫子系统的性能测试70
6.4 本章小结70-72
总结与展望72-73
参考文献73-75
攻读硕士学位期间取得的研究成果75-76
致谢76-77
附件77

【参考文献】

中国期刊全文数据库前10条

1 杨勇;;广东省专业镇公共创新服务平台建设研究[J];广东科技;2011年16期

2 曾亮;齐欢;王小平;陈迎春;;基于J2EE核心模式的组合Web框架研究[J];华中科技大学学报(自然科学版);2007年06期

3 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期

4 范玉顺,吴澄;工作流管理技术研究与产品现状及发展趋势[J];计算机集成制造系统-CIMS;2000年01期

5 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期

6 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

7 欧阳俊;张岳恒;;广东专业镇发展的现状及与国内外比较研究[J];科技管理研究;2009年08期

8 古秉权;;数据库系统分析与设计[J];南方金属;2009年01期

9 胡敏;;基于Freemarker的企业网站内容管理平台研究[J];信息通信;2011年02期

10 王法能;周晓娟;;数据库安全的实现技术[J];计算机与信息技术;2005年08期

中国博士学位论文全文数据库前1条

1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

中国硕士学位论文全文数据库前6条

1 周星海;基于SOAP的Web服务访问控制技术的研究[D];大连海事大学;2006年

2 刘洁清;网站聚焦爬虫研究[D];江西财经大学;2006年

3 蒋科;基于领域概念定制的主题爬虫系统的设计与实现[D];西安电子科技大学;2007年

4 何庭宏;广东专业镇发展现状分析与升级对策[D];北京交通大学;2008年

5 郭智杰;中国高科技产业集群问题研究[D];辽宁大学;2012年

6 刘惠;基于MVC的体育舞蹈视频教学系统的设计与实现[D];北京工业大学;2014年

本文关键词：专业镇信息爬取子系统的设计与实现，由笔耕文化传播整理发布。

，

本文编号：384069

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/384069.html

上一篇：DNS欺骗和缓存中毒攻击的检测
下一篇：虚拟网络映射技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|