数字航海通告自动获取与管理系统的设计与实现
发布时间:2021-06-23 17:58
海图,是现代航海导航的基本工具。海图制图人员快速准确地获取航海通告信息,及时地用于更正和更新海图产品,对于保障舰船航行安全具有重要意义。航海通告是海图生产、海图改正的重要数据来源。随着国内外海图制图工作由纯手工操作进入到以数据库为核心驱动的数字化阶段。近年来,基于快速发展的互联网技术,航海通告在发布和应用方式上也发生了巨大的变化。依托网络和数字媒介,较之纸质、电报等传统载体,具有发布速度快、海图改正应用效率高、节约人力成本等优势。虽然目前依据相关国际条约,我国海图生产部门可以不定期地从国内外航海通告发布机构获取纸质航海通告,但是鉴于通过邮寄方式获取纸质文档的周期较长,不利于保障海图产品的现势性,所以通常将其作为资料备份或历史文档保存。因而,针对目前以互联网发布为主的数字航海通告发布模式,利用计算机智能化技术准确、快速、及时地采集通告数据,提高海图制图人员的工作效率,是海图生产部门亟待解决的一个重要问题。本文以国内外55个航海通告官方网站发布的数字航海通告为研究对象,研究了数字海图改正、数字航海通告的内容与结构、编发模式、计算机网络爬虫技术、数据库技术等,结合我国海图生产部门对数字航海通...
【文章来源】:上海海洋大学上海市
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
通用网络爬虫Fig.3-1Generalpurposewebcrawler(2)聚焦网络爬虫
上海海洋大学硕士学位论文12的抓取,确保数据是最新的[38、39]。增量式网络爬虫只会在该网站产生新的数据时进行爬取,可极大地降低数据下载量,减少时间和存储空间上的耗费,但增加了网络爬虫相关算法的复杂度和实现难度。图3-2主题网络爬虫Fig.3-2Topic-focusedcrawler(4)深层网络爬虫Web网页按存在方式可以分为表层网页和深层网页[40]。表层网页是可以通过超链接链接到的静态网页,传统搜索引擎一般可以检索的网页。深层网页是只有用户提交相关数据才可以获取的表单式页面,例如:例如用户登录后才能访问的页面。相对其他爬虫,深层网络爬虫需要具备页面自动导航交互功能。特别是互联网进入Web2.0[41]以后,Ajax、JavaScript脚本技术在网站中越来越多的被采用,以至于深层网页数量的占比在持续增大,其数量十分巨大。深层网页可分为两类:1)基于Ajax的动态渲染页面。深层网络爬虫需要具有普通浏览器脚本执行功能,进而加载相应的内容。2)表单页面。表单页面是指需要用户登录后才能查询相关数据的网页,因此,需要实现自动提交用户信息并记录原有的Cookie,以及实现自动导航交互浏览。3.1.3礼貌采集
上海海洋大学硕士学位论文14[46]。其数据结构采用先进先出(FIFO)的设计,广度优先策略将网页分为若干层次,按照网页层次顺序,依次抓取每一层的页面。该搜索算法的效率较低,适合普通的搜索引擎使用。如图33所示,广度搜索策略顺序是A-C-D-F-B-G-E。3.2.2深度优先策略深度优先搜索策略是相对于广度优先搜索的策略,设计思想是从根URL开始,找到网页中的第一个URL进行爬取,然后在采集到的这个页面中再抽取第一个URL再继续爬取,一直重复上述步骤,直到最后一个页面没有URL或满足停止条件,然后回到根URL,找到第二个URL继续上面的采集步骤[46]。但由于图的结构复杂,容易出现死循环,因此一般都会采用URL去重策略和停止条件的组合使用避免爬虫陷入死循环。如图3-4所示,其搜索策略顺序是A-C-B-D-F-G-E。3.2.3最佳优先策略最佳优先策略对URL采用一定的算法计算其与主题的相关度,并选取评价度最好的一个或若干个URL进行抓取[47]。但该搜索策略也存在一个问题,即是一种局部最佳搜索算法,一些局部外的相关网页无法识别获取,造成数据的丢失。在具体应用过程中需要结合实际情况加以优化,以跳出局部最优点的缺陷。图3-3广度优先搜索策略示意图Fig.3-3Breadthfirstsearchstrategyschematic
【参考文献】:
期刊论文
[1]航海通告自动获取系统的设计与实现[J]. 付燕飞,郭立新,吴婉婷,朱书颖. 海洋测绘. 2019(04)
[2]海图与航海通告一体化生产技术研究[J]. 王斌,唐岩,王伟,刘波. 海洋测绘. 2016(04)
[3]主题网络爬虫研究综述[J]. 于娟,刘强. 计算机工程与科学. 2015(02)
[4]Web信息抽取网页自动浏览导航与集成规则研究[J]. 王海涛,张志亮,孙煜华,袁春风,黄宜华. 计算机科学与探索. 2014(09)
[5]基于CasperJS的Web自动化测试的研究与应用[J]. 潘伟,李佳欣. 信息系统工程. 2014(01)
[6]矢量海图通告改正自动处理方法研究[J]. 崔洪生,刘国辉,魏丽君. 海洋测绘. 2012(01)
[7]海图产品一体化更新问题研究[J]. 彭认灿,刘国辉,董箭,郑义东,唐梦尧. 海洋测绘. 2011(01)
[8]航海通告数字化生产系统的设计与实现[J]. 刘国辉,彭认灿,魏丽君. 测绘科学. 2011(05)
[9]基于一体化思想的海图更新数据模型[J]. 刘国辉,彭认灿,董箭,李明辉. 测绘科学技术学报. 2010(06)
[10]航海通告数字化生产方法研究[J]. 刘国辉,彭认灿,肖京国,李纪东. 海洋测绘. 2010(06)
博士论文
[1]非结构化网络空间信息智能搜索与服务研究[D]. 乐小虬.中国科学院研究生院(遥感应用研究所) 2006
硕士论文
[1]基于SpringBoot框架社交网络平台的设计与实现[D]. 刘敏.湖南大学 2018
[2]面向主题的多线程网络爬虫的设计与实现[D]. 蔡光波.西北民族大学 2017
[3]垂直搜索引擎中智能爬虫系统的研究与实现[D]. 王松.北京邮电大学 2017
[4]分布式智能网络爬虫的设计与实现[D]. 何国正.中国科学院大学(工程管理与信息技术学院) 2016
[5]支持动态页面的快速URL提取方法研究[D]. 张洪庆.哈尔滨工业大学 2013
[6]精确Web信息抽取集成模型与关键技术研究[D]. 解涛.南京大学 2011
[7]网站结构对搜索引擎抓取的影响[D]. 丁军艳.郑州大学 2011
[8]基于网络爬虫技术的内容探测系统设计与实现[D]. 黄晓鹏.北京邮电大学 2010
[9]国际标准电子海图自动改正系统的设计与实现[D]. 李邵喜.大连海事大学 2004
[10]数字航海通告的生成与发布研究[D]. 王强.大连海事大学 2003
本文编号:3245401
【文章来源】:上海海洋大学上海市
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
通用网络爬虫Fig.3-1Generalpurposewebcrawler(2)聚焦网络爬虫
上海海洋大学硕士学位论文12的抓取,确保数据是最新的[38、39]。增量式网络爬虫只会在该网站产生新的数据时进行爬取,可极大地降低数据下载量,减少时间和存储空间上的耗费,但增加了网络爬虫相关算法的复杂度和实现难度。图3-2主题网络爬虫Fig.3-2Topic-focusedcrawler(4)深层网络爬虫Web网页按存在方式可以分为表层网页和深层网页[40]。表层网页是可以通过超链接链接到的静态网页,传统搜索引擎一般可以检索的网页。深层网页是只有用户提交相关数据才可以获取的表单式页面,例如:例如用户登录后才能访问的页面。相对其他爬虫,深层网络爬虫需要具备页面自动导航交互功能。特别是互联网进入Web2.0[41]以后,Ajax、JavaScript脚本技术在网站中越来越多的被采用,以至于深层网页数量的占比在持续增大,其数量十分巨大。深层网页可分为两类:1)基于Ajax的动态渲染页面。深层网络爬虫需要具有普通浏览器脚本执行功能,进而加载相应的内容。2)表单页面。表单页面是指需要用户登录后才能查询相关数据的网页,因此,需要实现自动提交用户信息并记录原有的Cookie,以及实现自动导航交互浏览。3.1.3礼貌采集
上海海洋大学硕士学位论文14[46]。其数据结构采用先进先出(FIFO)的设计,广度优先策略将网页分为若干层次,按照网页层次顺序,依次抓取每一层的页面。该搜索算法的效率较低,适合普通的搜索引擎使用。如图33所示,广度搜索策略顺序是A-C-D-F-B-G-E。3.2.2深度优先策略深度优先搜索策略是相对于广度优先搜索的策略,设计思想是从根URL开始,找到网页中的第一个URL进行爬取,然后在采集到的这个页面中再抽取第一个URL再继续爬取,一直重复上述步骤,直到最后一个页面没有URL或满足停止条件,然后回到根URL,找到第二个URL继续上面的采集步骤[46]。但由于图的结构复杂,容易出现死循环,因此一般都会采用URL去重策略和停止条件的组合使用避免爬虫陷入死循环。如图3-4所示,其搜索策略顺序是A-C-B-D-F-G-E。3.2.3最佳优先策略最佳优先策略对URL采用一定的算法计算其与主题的相关度,并选取评价度最好的一个或若干个URL进行抓取[47]。但该搜索策略也存在一个问题,即是一种局部最佳搜索算法,一些局部外的相关网页无法识别获取,造成数据的丢失。在具体应用过程中需要结合实际情况加以优化,以跳出局部最优点的缺陷。图3-3广度优先搜索策略示意图Fig.3-3Breadthfirstsearchstrategyschematic
【参考文献】:
期刊论文
[1]航海通告自动获取系统的设计与实现[J]. 付燕飞,郭立新,吴婉婷,朱书颖. 海洋测绘. 2019(04)
[2]海图与航海通告一体化生产技术研究[J]. 王斌,唐岩,王伟,刘波. 海洋测绘. 2016(04)
[3]主题网络爬虫研究综述[J]. 于娟,刘强. 计算机工程与科学. 2015(02)
[4]Web信息抽取网页自动浏览导航与集成规则研究[J]. 王海涛,张志亮,孙煜华,袁春风,黄宜华. 计算机科学与探索. 2014(09)
[5]基于CasperJS的Web自动化测试的研究与应用[J]. 潘伟,李佳欣. 信息系统工程. 2014(01)
[6]矢量海图通告改正自动处理方法研究[J]. 崔洪生,刘国辉,魏丽君. 海洋测绘. 2012(01)
[7]海图产品一体化更新问题研究[J]. 彭认灿,刘国辉,董箭,郑义东,唐梦尧. 海洋测绘. 2011(01)
[8]航海通告数字化生产系统的设计与实现[J]. 刘国辉,彭认灿,魏丽君. 测绘科学. 2011(05)
[9]基于一体化思想的海图更新数据模型[J]. 刘国辉,彭认灿,董箭,李明辉. 测绘科学技术学报. 2010(06)
[10]航海通告数字化生产方法研究[J]. 刘国辉,彭认灿,肖京国,李纪东. 海洋测绘. 2010(06)
博士论文
[1]非结构化网络空间信息智能搜索与服务研究[D]. 乐小虬.中国科学院研究生院(遥感应用研究所) 2006
硕士论文
[1]基于SpringBoot框架社交网络平台的设计与实现[D]. 刘敏.湖南大学 2018
[2]面向主题的多线程网络爬虫的设计与实现[D]. 蔡光波.西北民族大学 2017
[3]垂直搜索引擎中智能爬虫系统的研究与实现[D]. 王松.北京邮电大学 2017
[4]分布式智能网络爬虫的设计与实现[D]. 何国正.中国科学院大学(工程管理与信息技术学院) 2016
[5]支持动态页面的快速URL提取方法研究[D]. 张洪庆.哈尔滨工业大学 2013
[6]精确Web信息抽取集成模型与关键技术研究[D]. 解涛.南京大学 2011
[7]网站结构对搜索引擎抓取的影响[D]. 丁军艳.郑州大学 2011
[8]基于网络爬虫技术的内容探测系统设计与实现[D]. 黄晓鹏.北京邮电大学 2010
[9]国际标准电子海图自动改正系统的设计与实现[D]. 李邵喜.大连海事大学 2004
[10]数字航海通告的生成与发布研究[D]. 王强.大连海事大学 2003
本文编号:3245401
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3245401.html