当前位置:主页 > 科技论文 > 测绘论文 >

基于网络爬虫的水利信息聚合系统的设计与实现

发布时间:2020-07-24 11:18
【摘要】:随着水利信息化的发展,互联网上累积了数据量庞大的水利主题信息。由于互联网上的信息具有数据量庞大,分布离散,结构复杂等特点,采用传统的人工采集方式进行信息的获取,具有效率低下等问题。使用网络爬虫则可以方便快捷地获取到数据量庞大,主题相关性高的水利信息。系统以主题爬虫为基础构建信息聚合平台,实现水利信息的获取和利用。论文的主要研究内容如下:(1)水利主题爬虫各功能模块设计。对主题爬虫的框架进行选择,种子站点的集合进行筛选,主题描述词库进行定义,爬行策略进行选择,链接提取方案进行设计,主题相关性分析算法进行分析与改进。(2)水利GIS信息爬取方案设计。GIS格式的信息是水利行业区别于其他行业的显著特点。水利地理信息大多数是以接口的形式提供服务,用户无法直接获取到原始的数据。可根据瓦片金字塔模型进行地图拼接和缩放算法的设计,实现水利地图信息的获取。(3)多种格式水利信息爬取方案设计。水利主题爬虫根据不同格式信息的特点定制不同的爬取方案,将文字、数据、图片、视频影像和地图等多种格式的水利信息进行全面获取。(4)水利信息规范化设计。为了解决水利信息形式不统一、表现不规范等问题,水利信息规范化模块将信息按种类转化成通用的格式,并对不符合规范的信息进行相应算法处理,使信息规范化。(5)搭建水利信息聚合平台。以爬虫爬取的水利信息为基础,进行水利信息聚合平台的搭建。该平台对水利信息进行聚合,为用户提供水利信息展示和检索等多种服务。水利信息聚合系统采用主题爬虫对信息进行爬取,并且构建水利信息聚合平台,将水利信息在该平台进行聚合使用,为用户提供多种特色化信息服务。该系统为用户进行水利信息的采集和利用带来了极大的便利和良好的体验。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TV21;P208;TP391.1
【图文】:

业务分类,主题,水利业


水利主题的定义和主题爬虫技术是构建水利主题信息聚合系统的核心技术。本章节将会对这些技术进行介绍与分析。对水利主题进行定义与分类,然后利用主题爬虫技术对数据量庞大的水利信息进行爬取,最终进行水利信息聚合系统的构建。2.1 水利主题分类及特点水利主题信息种类繁多,可以按照水利业务种类,水利数据格式,水利数据来源,以及水利数据时间等多个维度进行划分。每种类型的水利主题信息具有各自相应的特点。2.1.1 水利业务种类水利行业具有自己的业务体系。水利信息可以按照业务进行划分。具体可以分为水文、水资源、水工程移民、水利工程、水旱灾害防御、水土保持等种类[36]。每种不同业务类型的水利信息具有不同的数据内容和特性。按照行政业务对水利信息进行分类如图 2-1 所示。

数据表格,水利行业,互联网,文字


10图 2-2 互联网上的水利文字(2)水利数据表格数据表格是水利行业常见的一种信息表现形式。水利数据是水利行业中重要的指标参数。为了方便水利数据的传播和使用,水利行业相关工作人员通常将测量和计算得到的水利数据进行组织整理,最终规范化为水利数据表格。水利数据通常以表格的形式在互联网上进行展示与传播。水利数据表格具有信息集中、数据规范的特点。水利网站上的数据表格如图 2-3 所示。(3)水利图片图片是一种直观的信息展示与存储形式。水利行业也有通过静态影像记录水利信息的图片。图片以更直观的方式展现了某种水利场景和现象。水利网站上的图片如图 2-4 所示。

数据表格,互联网,图片


互联网上的水利数据表格

【相似文献】

相关期刊论文 前10条

1 曹树金;马翠嫦;;信息聚合概念的构成与聚合模式研究[J];中国图书馆学报;2016年03期

2 马飞;王炼;孙启鹏;李丽;;信息聚合视角下物联网服务模式设计及实现分析[J];情报科学;2013年06期

3 邓胜利;;信息聚合服务的发展与演变研究[J];情报资料工作;2012年01期

4 胡昌平;胡吉明;邓胜利;;基于社会化群体作用的信息聚合服务[J];中国图书馆学报;2010年03期

5 李娜;陈晰;吴帆;李祥珍;;面向智能电网的物联网信息聚合技术[J];信息通信技术;2010年02期

6 姜恩波;;基于信息聚合的服务与技术[J];现代图书情报技术;2007年04期

7 陈玮;苏玉娜;;RSS信息聚合技术[J];电脑知识与技术(学术交流);2007年01期

8 段琳凤;刘雷;陈曦;和心;金菲菲;;基于信息聚合的电力企业供应链大数据研究[J];物流技术;2016年07期

9 曹进军;;基于网络切片的信息聚合研究[J];情报理论与实践;2013年09期

10 梁斌;赵志宏;;领域可移植的企业的信息聚合[J];四川大学学报(工程科学版);2007年S1期

相关会议论文 前3条

1 梁斌;赵志宏;;领域可移植的企业的信息聚合[A];第四届中国软件工程大会论文集[C];2007年

2 杨高峰;杨岳湘;;基于RSS的个性化科技信息聚合门户的设计与实现[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

3 陈典全;黄朝阳;;基于位置的社会网络(LBSN)研究及其产业化[A];第二届中国卫星导航学术年会电子文集[C];2011年

相关重要报纸文章 前10条

1 本报记者 田文杰;信息聚合 智慧共享[N];晋中日报;2015年

2 本报记者 俞悦;传统报业与信息聚合网站的恩怨情仇[N];中国计算机报;2009年

3 本报记者 徐卫兴 朱彦 通讯员 周威 杨凯;信息聚合为税收管理“精准导航”[N];中国税务报;2016年

4 领文;大旗网创Web2.0聚合新风[N];中国计算机报;2006年

5 沈海荣;军事物流:信息聚合下的“物畅其流”[N];解放军报;2011年

6 陈江南;用先进文化引领“微时代”官兵[N];解放军报;2011年

7 康梁;大旗网掀起Web2.0聚合浪潮[N];中华工商时报;2006年

8 整理 见习记者 陶力;对话口碑公司CEO范驰[N];21世纪经济报道;2015年

9 本报记者 刘靓;ChinaBBS蝶变“daqi” 开启新旅程[N];证券日报;2006年

10 本报记者 吴玉征;法院“信息球”迈入大数据时代[N];计算机世界;2013年

相关硕士学位论文 前10条

1 闫宁;基于网络爬虫的水利信息聚合系统的设计与实现[D];华中科技大学;2019年

2 叶晓宁;网络空间的人物信息聚合系统的设计与实现[D];北京邮电大学;2019年

3 郭旭阳;信息聚合展示类Web应用技术框架设计实现与应用[D];北京邮电大学;2017年

4 李静;基于LDA的微博灾害信息聚合[D];武汉大学;2018年

5 黄家乾;地理信息聚合研究[D];福州大学;2010年

6 刘礼;学科信息聚合服务平台设计与实现[D];华中师范大学;2016年

7 杨高峰;基于信息聚合技术的个性化信息门户的研究与实现[D];国防科学技术大学;2009年

8 张雅莉;基于Android的信息聚合系统的研究与实现[D];北京邮电大学;2017年

9 鲁媛;基于信息聚合技术的农业信息服务系统的设计与实现[D];山东大学;2013年

10 张丽娜;基于RSS的种子信息聚合与抽取模型的研究与实现[D];太原理工大学;2010年



本文编号:2768766

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/2768766.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dd5b0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com