基于爬虫技术的海洋科普网站的开发
发布时间:2022-01-20 12:23
随着互联网的高速普及和发展,我国上网的人数的增长也十分迅速,网上的信息也爆炸式增多,这就导致了许多人在网上找到所需信息的效率变低。为了让用户在网上获取信息的效率提高,也为了能够吸引更多的人去了解关于海洋科普的知识,本文开发了基于自动爬虫的海洋科普网站,为海洋科普做出贡献。本网站需要实现的功能有自动对特定网站的文章进行爬虫,同时对爬虫的结果进行一些简单的处理和分类,将其存储到数据库中,并且将其在页面中展示出来。另外网站还需要有对于Springer等论文数据库的检索功能,用户可以在页面中输入需要查询的相关约束,即可得到查询结果。网站的爬虫部分需要从对应网站的网址入手,通过对网址的正则表达式分析,判断页面属于文章列表页面或者文章内容页面。然后需要通过xpath分析网页中的内容,将需要的内容提取出来,存入到相应的类中。爬虫获得文章需要进行下一步的分类操作。分类首先需要将文章进行分词,中文分词对比英文难度更高,需要对照相应的词典或者进行语义分析。分词的下一步操作是进行词袋处理和计算TF-IDF的值,这些操作都是为了将文章中关键词按照一定的规则进行提取。提取出来的关键词在进行朴素贝叶斯分类,得到相...
【文章来源】:中国地质大学(北京)北京市 211工程院校 教育部直属院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
我国2008年-2018年的网民规模和互联网普及率
中国地质大学(北京)工程硕士学位论文3论文的检索功能可以极大的提高我们查找论文的速度,提高科研效率。如图1-2为SpringNature搜索API首页。图1-2SpringerNature搜索API首页通过自动爬虫,网站可以获得更多的海洋科普文章,以激发更多的用户对于海洋科学的兴趣;能够根据用户提供的关键词和其他选项,准确的提供用户需要的论文,能够极大的提高科研的效率。另外,将页面做的简洁高效,重点突出,操作引导方便,都是能够提升用户体验的关键要素。用户体验提升可以让网站被更多的用户使用,可以让更多的人了解最新的海洋科普知识,并且可以吸引更多的人投身于海洋科学研究中。每隔固定的时间,网站就会自动进行爬虫工作,并且会判断爬虫所得到的文章是否是最新的文章,如果已经存在于数据库中,就会进行舍弃。这样,用户就可以看到新的科普文章,不会被已经看过的文章浪费时间。并且爬虫会每隔固定的时间自动运行,既不需要维护人员耗费大量的时间维护,也不至于浪费大量的资源去处理已经存在的文章。间隔时间可以自由设定,既能保证文章快速更新,也会节省服务器处理资源。
第1章绪论6图1-3静态资源网站示意图动态网站主要指的是,开发者将网站上传到服务器之后,网站依旧会与后台的数据库以及开发者设定的程序等进行交互。当用户打开网站,网站可以根据不同的用户改变自己的样式,并且与用户进行交互。当用户发出了指令,后台会根据用户的指令进行各种操作,之后将运行结果展示给用户。当网站的内容发生变化时,不需要重新载入网站,更不需要开发者重新删除上传新的网站,网站自身会发生相应的变化,开发者进行维护也不需要全部删除进行更新。动态网站并不是单独存在于服务器端,他会根据前端用户的请求返回一个完整的网页。应该说明的是,动态网站比较静态网站功能更加强大,维护也更方便,但是访问速度会因为后台程序的复杂而变慢。开发动态页面最常用的语言为JavaScript语言。如图1-4为动态资源网站示意图。图1-4动态资源网站示意图
【参考文献】:
期刊论文
[1]基于WebMagic框架的面向招聘网站的爬虫技术研究[J]. 朱二莉. 信息与电脑(理论版). 2019(19)
[2]基于JavaWeb的图书购物网站的设计与实现[J]. 陈秋玲. 电脑知识与技术. 2019(16)
[3]基于HTML+CSS+JQuery的网站开发简述[J]. 韦立梅,张淑荣. 电脑与电信. 2017(09)
[4]基于JavaWeb的远程库房环境监控系统[J]. 林光源,张国平,高雪莲,陈志文,蔡盼盼. 信息技术. 2017(05)
[5]一种基于WebMagic和Mahout的信息搜集与推荐系统[J]. 武婷婷. 软件导刊. 2016(10)
[6]基于Spring Boot的web设计与实现[J]. 杨家炜. 轻工科技. 2016(07)
[7]基于JavaWeb的PDF安全编辑系统的设计与实现[J]. 胡荣磊,左珮良,蒋华. 北京电子科技学院学报. 2015(02)
[8]基于JavaWeb的博客网的设计与实现[J]. 陈琛,韩利凯. 科技广场. 2013(08)
[9]一种基于词袋模型的图像优化分类方法[J]. 赵春晖,王莹,Masahide KANEKO. 电子与信息学报. 2012(09)
[10]基于JSP的电子商务网站开发[J]. 闻永萍. 信息安全与技术. 2011(11)
硕士论文
[1]基于MVC模式的Spring框架的应用与研究[D]. 邹存洁.大连海事大学 2006
[2]MVC设计模式的原理与实现[D]. 李霞.吉林大学 2004
本文编号:3598817
【文章来源】:中国地质大学(北京)北京市 211工程院校 教育部直属院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
我国2008年-2018年的网民规模和互联网普及率
中国地质大学(北京)工程硕士学位论文3论文的检索功能可以极大的提高我们查找论文的速度,提高科研效率。如图1-2为SpringNature搜索API首页。图1-2SpringerNature搜索API首页通过自动爬虫,网站可以获得更多的海洋科普文章,以激发更多的用户对于海洋科学的兴趣;能够根据用户提供的关键词和其他选项,准确的提供用户需要的论文,能够极大的提高科研的效率。另外,将页面做的简洁高效,重点突出,操作引导方便,都是能够提升用户体验的关键要素。用户体验提升可以让网站被更多的用户使用,可以让更多的人了解最新的海洋科普知识,并且可以吸引更多的人投身于海洋科学研究中。每隔固定的时间,网站就会自动进行爬虫工作,并且会判断爬虫所得到的文章是否是最新的文章,如果已经存在于数据库中,就会进行舍弃。这样,用户就可以看到新的科普文章,不会被已经看过的文章浪费时间。并且爬虫会每隔固定的时间自动运行,既不需要维护人员耗费大量的时间维护,也不至于浪费大量的资源去处理已经存在的文章。间隔时间可以自由设定,既能保证文章快速更新,也会节省服务器处理资源。
第1章绪论6图1-3静态资源网站示意图动态网站主要指的是,开发者将网站上传到服务器之后,网站依旧会与后台的数据库以及开发者设定的程序等进行交互。当用户打开网站,网站可以根据不同的用户改变自己的样式,并且与用户进行交互。当用户发出了指令,后台会根据用户的指令进行各种操作,之后将运行结果展示给用户。当网站的内容发生变化时,不需要重新载入网站,更不需要开发者重新删除上传新的网站,网站自身会发生相应的变化,开发者进行维护也不需要全部删除进行更新。动态网站并不是单独存在于服务器端,他会根据前端用户的请求返回一个完整的网页。应该说明的是,动态网站比较静态网站功能更加强大,维护也更方便,但是访问速度会因为后台程序的复杂而变慢。开发动态页面最常用的语言为JavaScript语言。如图1-4为动态资源网站示意图。图1-4动态资源网站示意图
【参考文献】:
期刊论文
[1]基于WebMagic框架的面向招聘网站的爬虫技术研究[J]. 朱二莉. 信息与电脑(理论版). 2019(19)
[2]基于JavaWeb的图书购物网站的设计与实现[J]. 陈秋玲. 电脑知识与技术. 2019(16)
[3]基于HTML+CSS+JQuery的网站开发简述[J]. 韦立梅,张淑荣. 电脑与电信. 2017(09)
[4]基于JavaWeb的远程库房环境监控系统[J]. 林光源,张国平,高雪莲,陈志文,蔡盼盼. 信息技术. 2017(05)
[5]一种基于WebMagic和Mahout的信息搜集与推荐系统[J]. 武婷婷. 软件导刊. 2016(10)
[6]基于Spring Boot的web设计与实现[J]. 杨家炜. 轻工科技. 2016(07)
[7]基于JavaWeb的PDF安全编辑系统的设计与实现[J]. 胡荣磊,左珮良,蒋华. 北京电子科技学院学报. 2015(02)
[8]基于JavaWeb的博客网的设计与实现[J]. 陈琛,韩利凯. 科技广场. 2013(08)
[9]一种基于词袋模型的图像优化分类方法[J]. 赵春晖,王莹,Masahide KANEKO. 电子与信息学报. 2012(09)
[10]基于JSP的电子商务网站开发[J]. 闻永萍. 信息安全与技术. 2011(11)
硕士论文
[1]基于MVC模式的Spring框架的应用与研究[D]. 邹存洁.大连海事大学 2006
[2]MVC设计模式的原理与实现[D]. 李霞.吉林大学 2004
本文编号:3598817
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3598817.html
最近更新
教材专著