专业镇信息爬取子系统的设计与实现
本文关键词:专业镇信息爬取子系统的设计与实现,由笔耕文化传播整理发布。
【摘要】:随着广东省经济的飞速发展,一些在省内占有优越的地理位置、文化环境和信息条件的市镇出现了许多有一定规模的中小微企业。这些镇内的企业常常联合起来,针对某一产业,各自分工合作,从而谋得发展。经过多年的优胜劣汰,省内的许多市镇都形成了自己的特色产业,特色品牌。然而,这些镇与镇之间的联系比较少,缺乏信息沟通的渠道。而且,镇内的企业都缺乏一个能够进行信息共享、展现自我的信息服务平台。在信息网络蓬勃发展的现在,这些专业镇明显跟不上时代的脚步。因此,急需一个平台来整合产业信息资源,提供信息交互的渠道,通过信息网络创新技术保证信息的完整以及安全,为企业的发展提供一个有效的、可行的策略。而广东省专业镇信息服务平台迎合了这些需求。本论文来源于“广东省专业镇信息服务平台”项目。在专业镇信息平台中,我们需要对专业镇平台三大数据库的数据进行采集工作,为了高效准确地获取数据源,本文设计了一个专业镇信息爬取子系统来实现从互联网上抓取数据,解析数据并将数据导入平台系统中。论文主要完成了以下工作:对信息平台发展动态以及爬虫研究现状做了简单的介绍;阐述平台系统的总体设计思路与组织架构,平台的前端页面技术以及后端的企业内容管理系统。通过分析平台的处理流程和网络结构,描述平台的实现过程。设计并实现爬取子系统,爬取各类网站的海量数据,根据信息平台数据库需求的数据类型与格式,对获取的数据源进行结构化处理。通过网页内容主题相关策略对信息的有效性进行了验证。最后将爬取的数据源存储在数据库管理系统中,爬取结束后,把数据库文件进行分类处理,并将其批量导入专业镇信息平台的后台数据库。实现了信息平台数据和采集数据的融合。
【关键词】:信息服务平台 网络爬虫 数据源
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.52;TP393.09
【目录】:
- 摘要5-6
- Abstract6-11
- 第一章 绪论11-16
- 1.1 课题研究的背景及意义11-12
- 1.2 国内外研究现状12-14
- 1.2.1 国内外专业镇信息化研究现状12-13
- 1.2.2 国内外网络爬虫研究现状13-14
- 1.3 论文的研究内容及论文结构14-16
- 第二章 相关技术介绍16-24
- 2.1 爬虫技术的简介16-17
- 2.2 基于Scrapy的网页抓取技术17-18
- 2.2.1 python爬虫框架Scrapy17-18
- 2.2.2 Xpath介绍18
- 2.3 基于BeautifulSoup的网页解析技术18-19
- 2.3.1 Urllib库18
- 2.3.2 BeautifulSoup解析器18-19
- 2.4 专业镇信息服务平台的开发技术19-23
- 2.4.1 J2EE概念和结构19-20
- 2.4.2 J2EE主要技术20-21
- 2.4.3 Web应用框架21
- 2.4.4 Web Services21-22
- 2.4.5 企业内容管理系统22-23
- 2.5 本章小结23-24
- 第三章 平台的总体设计24-31
- 3.1 系统的需求分析24-26
- 3.1.1 前端系统功能性需求25
- 3.1.2 后台系统的功能性需求25
- 3.1.3 平台系统的用例25-26
- 3.2 系统的流程处理26-28
- 3.3 系统的软件结构28-30
- 3.4 系统的网络结构30
- 3.5 本章小结30-31
- 第四章 爬取子系统的设计31-47
- 4.1 子系统的爬取目标31-32
- 4.2 子系统的功能结构32-33
- 4.3 子系统的软件结构33-37
- 4.4 子系统的流程处理37-38
- 4.5 子系统的抓取策略38-40
- 4.5.1 深度优先遍历策略38-39
- 4.5.2 网页内容主题相关策略39-40
- 4.6 子系统的接口设计40-42
- 4.7 数据库的设计42-46
- 4.7.1 创新资源库42-44
- 4.7.2 市场信息库44-46
- 4.7.3 企业技术需求库46
- 4.8 本章小结46-47
- 第五章 子系统的详细设计及关键技术的应用47-64
- 5.1 抓取信息模块的设计47-48
- 5.2 信息存储模块的设计48-51
- 5.3 内容处理模块的设计51-53
- 5.4 Web信息抓取框架Scrapy的应用53-60
- 5.4.1 Spider的具体应用53-55
- 5.4.2 CSS选择器和Xpath的具体应用55-58
- 5.4.3 模拟登录抓取网页内容58-60
- 5.5 HTML/XML解析器BeautifulSoup的应用60-63
- 5.5.1 静态网页内容提取60-62
- 5.5.2 抓取动态网页62-63
- 5.6 本章小结63-64
- 第六章 系统测试64-72
- 6.1 系统测试概述64-65
- 6.2 网络爬虫子系统的功能测试65-70
- 6.3 网络爬虫子系统的性能测试70
- 6.4 本章小结70-72
- 总结与展望72-73
- 参考文献73-75
- 攻读硕士学位期间取得的研究成果75-76
- 致谢76-77
- 附件77
【参考文献】
中国期刊全文数据库 前10条
1 杨勇;;广东省专业镇公共创新服务平台建设研究[J];广东科技;2011年16期
2 曾亮;齐欢;王小平;陈迎春;;基于J2EE核心模式的组合Web框架研究[J];华中科技大学学报(自然科学版);2007年06期
3 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
4 范玉顺,吴澄;工作流管理技术研究与产品现状及发展趋势[J];计算机集成制造系统-CIMS;2000年01期
5 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
6 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
7 欧阳俊;张岳恒;;广东专业镇发展的现状及与国内外比较研究[J];科技管理研究;2009年08期
8 古秉权;;数据库系统分析与设计[J];南方金属;2009年01期
9 胡敏;;基于Freemarker的企业网站内容管理平台研究[J];信息通信;2011年02期
10 王法能;周晓娟;;数据库安全的实现技术[J];计算机与信息技术;2005年08期
中国博士学位论文全文数据库 前1条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前6条
1 周星海;基于SOAP的Web服务访问控制技术的研究[D];大连海事大学;2006年
2 刘洁清;网站聚焦爬虫研究[D];江西财经大学;2006年
3 蒋科;基于领域概念定制的主题爬虫系统的设计与实现[D];西安电子科技大学;2007年
4 何庭宏;广东专业镇发展现状分析与升级对策[D];北京交通大学;2008年
5 郭智杰;中国高科技产业集群问题研究[D];辽宁大学;2012年
6 刘惠;基于MVC的体育舞蹈视频教学系统的设计与实现[D];北京工业大学;2014年
本文关键词:专业镇信息爬取子系统的设计与实现,由笔耕文化传播整理发布。
,本文编号:384069
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/384069.html