分布式数据采集分析系统的设计与实现
发布时间:2021-01-20 19:25
随着互联网+时代的到来,网络数据呈现爆炸式地增长,而越来越多有价值的网络数据信息却无法被传统的搜索引擎实时获取到,例如:电商商品订单数量、商品评价信息、OTA酒店间夜信息以及微博评论信息等。而这些未被收录到传统搜索引擎的数据信息对于现代企业的投资决策以及科研机构的社会科学方向的研究却有着巨大的意义和价值。在传统搜索引擎已经无法满足现代企业、科研机构甚至个人投资者对网络数据的全面性、及时性、个性化的需求的背景下,如何高效获取互联网热点信息以及如何分析处理这些差异化、精细化的数据已成为一种迫切的需求。针对上述问题,本文设计并实现了一种分布式数据采集分析系统。该系统以虚拟化技术提供底层虚拟服务器支持,其上搭建基于Storm和Hadoop的大数据处理平台,作为数据采集分析的系统处理架构。其中,在实时分布式处理平台Storm中,设计并实现了模块化的数据采集功能单元:URL构建模块、反爬策略调度模块、数据标记与解析模块以及数据格式化模块,此功能单元为互联网数据采集处理前端;以NoSQL型数据库(HBase和Redis)作为数据库中间件,连接后端数据分析处理平台;后端数据分析处理平台Hadoop以数...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
工作空间
如图 4.2 所示为工程列表功能页面,主要负责网站项目添加,服务启动时间设置以及项目运行前提条件选择等功能。图4.2 工程列表工程列表功能页面参数介绍,如表 4.2 工程列表参数所示。表4.2 工程列表参数参数 功能wid 所属的工作空间 Idpid 项目 IDname 项目名字description 项目描述datasource 项目启动连接 redis 的数据库名称schedule 服务定时启动时间选择precondition 项目运行的前提条件选择操作 删除此条配置信息如图 4.3 所示为任务列表功能页面,主要负责任务 ID 添加,项目名称添加,URL信息生成配置,是否自动生成 URL、URL 是否参与循环和是否使用代理等数据采集相关的配置信息。此处关于反爬策略模块的可配置选项,只有“是否使用 IP 代理”可以进行参数选择,其他的三种反爬方式均为自动开启状态无需在配置界面中进行手动配置。这样设计和实现的原因是,实际测试过程中发现,通过 IP 代理请求网页并爬取数据的过程中
第四章 分布式数据采集分析系统详细设计与实现23图4.3 任务列表任务列表功能页面参数介绍,如表 4.3 任务列表参数所示。表4.3 任务列表参数参数 功能wid 任务所属的工作空间 IDpid 任务所属的项目 IDtid 任务 IDname 任务名称description 任务描述urlpattern URL 配置urlgenerate 是否生成 URLisloop URL 是否参与循环proxy_open 是否使用代理请求操作 删除此条配置信息如图 4.4 所示为数据列表功能页面,主要负责存储数据库选择,存储在 HBase 中的行健参数,数据处理方式和循环任务 ID 选择等功能。图4.4 数据列表
【参考文献】:
期刊论文
[1]基于电力大数据的多维聚合技术研究[J]. 张莉娜,吴伟,程旭明,胡勇. 数字技术与应用. 2017(08)
[2]大数据环境下的分布式数据流处理关键技术探析[J]. 陈付梅,韩德志,毕坤,戴永涛. 计算机应用. 2017(03)
[3]网络爬虫针对“反爬”网站的爬取策略研究[J]. 邹科文,李达,邓婷敏,李嘉振,陈义明. 电脑知识与技术. 2016(07)
[4]Web垂直搜索引擎实现过程的研究[J]. 张弘弦,田玉玲. 现代电子技术. 2016(08)
[5]互联网思维与传统企业再造[J]. 李海舰,田跃新,李文杰. 中国工业经济. 2014(10)
[6]数字资源Web应用服务器的失效检测[J]. 佘静涛,王醒宇. 计算机系统应用. 2014(07)
[7]node-webkit:HTML5桌面应用运行环境[J]. 王文睿. 程序员. 2014 (01)
[8]移动云服务的数据安全与隐私保护综述[J]. 李瑞轩,董新华,辜希武,周湾湾,王聪. 通信学报. 2013(12)
[9]正则表达式在Web信息抽取中的应用[J]. 胡军伟,秦奕青,张伟. 北京信息科技大学学报(自然科学版). 2011(06)
[10]NoSQL非关系型数据库的发展及应用初探[J]. 黄贤立. 福建电脑. 2010(07)
硕士论文
[1]基于实时数据流处理的http数据分析可视化系统[D]. 潘冬.电子科技大学 2016
[2]基于微信公众平台的照片冲印系统开发[D]. 孙朝阳.西安电子科技大学 2016
[3]网站文本数据采集系统的设计与实现[D]. 田丹.北京交通大学 2015
[4]山东大学舆情分析系统的设计与实现[D]. 姜朋.山东大学 2015
[5]一种基于Storm和Mongodb的分布式实时日志数据存储与处理系统的设计与实现及应用[D]. 曾明宇.浙江大学 2015
[6]基于Storm云平台的地图道路匹配算法研究[D]. 朱炳宇.云南大学 2013
[7]云计算研究及Hadoop应用程序的开发与测试[D]. 施岩.北京邮电大学 2011
[8]数据挖掘技术在煤矿安全生产管理信息系统中的研究与应用[D]. 程韦.北方工业大学 2009
[9]基于中文信息检索的文本预处理研究[D]. 何金凤.电子科技大学 2008
本文编号:2989638
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
工作空间
如图 4.2 所示为工程列表功能页面,主要负责网站项目添加,服务启动时间设置以及项目运行前提条件选择等功能。图4.2 工程列表工程列表功能页面参数介绍,如表 4.2 工程列表参数所示。表4.2 工程列表参数参数 功能wid 所属的工作空间 Idpid 项目 IDname 项目名字description 项目描述datasource 项目启动连接 redis 的数据库名称schedule 服务定时启动时间选择precondition 项目运行的前提条件选择操作 删除此条配置信息如图 4.3 所示为任务列表功能页面,主要负责任务 ID 添加,项目名称添加,URL信息生成配置,是否自动生成 URL、URL 是否参与循环和是否使用代理等数据采集相关的配置信息。此处关于反爬策略模块的可配置选项,只有“是否使用 IP 代理”可以进行参数选择,其他的三种反爬方式均为自动开启状态无需在配置界面中进行手动配置。这样设计和实现的原因是,实际测试过程中发现,通过 IP 代理请求网页并爬取数据的过程中
第四章 分布式数据采集分析系统详细设计与实现23图4.3 任务列表任务列表功能页面参数介绍,如表 4.3 任务列表参数所示。表4.3 任务列表参数参数 功能wid 任务所属的工作空间 IDpid 任务所属的项目 IDtid 任务 IDname 任务名称description 任务描述urlpattern URL 配置urlgenerate 是否生成 URLisloop URL 是否参与循环proxy_open 是否使用代理请求操作 删除此条配置信息如图 4.4 所示为数据列表功能页面,主要负责存储数据库选择,存储在 HBase 中的行健参数,数据处理方式和循环任务 ID 选择等功能。图4.4 数据列表
【参考文献】:
期刊论文
[1]基于电力大数据的多维聚合技术研究[J]. 张莉娜,吴伟,程旭明,胡勇. 数字技术与应用. 2017(08)
[2]大数据环境下的分布式数据流处理关键技术探析[J]. 陈付梅,韩德志,毕坤,戴永涛. 计算机应用. 2017(03)
[3]网络爬虫针对“反爬”网站的爬取策略研究[J]. 邹科文,李达,邓婷敏,李嘉振,陈义明. 电脑知识与技术. 2016(07)
[4]Web垂直搜索引擎实现过程的研究[J]. 张弘弦,田玉玲. 现代电子技术. 2016(08)
[5]互联网思维与传统企业再造[J]. 李海舰,田跃新,李文杰. 中国工业经济. 2014(10)
[6]数字资源Web应用服务器的失效检测[J]. 佘静涛,王醒宇. 计算机系统应用. 2014(07)
[7]node-webkit:HTML5桌面应用运行环境[J]. 王文睿. 程序员. 2014 (01)
[8]移动云服务的数据安全与隐私保护综述[J]. 李瑞轩,董新华,辜希武,周湾湾,王聪. 通信学报. 2013(12)
[9]正则表达式在Web信息抽取中的应用[J]. 胡军伟,秦奕青,张伟. 北京信息科技大学学报(自然科学版). 2011(06)
[10]NoSQL非关系型数据库的发展及应用初探[J]. 黄贤立. 福建电脑. 2010(07)
硕士论文
[1]基于实时数据流处理的http数据分析可视化系统[D]. 潘冬.电子科技大学 2016
[2]基于微信公众平台的照片冲印系统开发[D]. 孙朝阳.西安电子科技大学 2016
[3]网站文本数据采集系统的设计与实现[D]. 田丹.北京交通大学 2015
[4]山东大学舆情分析系统的设计与实现[D]. 姜朋.山东大学 2015
[5]一种基于Storm和Mongodb的分布式实时日志数据存储与处理系统的设计与实现及应用[D]. 曾明宇.浙江大学 2015
[6]基于Storm云平台的地图道路匹配算法研究[D]. 朱炳宇.云南大学 2013
[7]云计算研究及Hadoop应用程序的开发与测试[D]. 施岩.北京邮电大学 2011
[8]数据挖掘技术在煤矿安全生产管理信息系统中的研究与应用[D]. 程韦.北方工业大学 2009
[9]基于中文信息检索的文本预处理研究[D]. 何金凤.电子科技大学 2008
本文编号:2989638
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2989638.html