当前位置:主页 > 管理论文 > 移动网络论文 >

基于网络爬虫的网站信息采集技术研究

发布时间:2018-05-19 07:55

  本文选题:信息采集 + 信息抽取 ; 参考:《大连海事大学》2014年硕士论文


【摘要】:随着互联网的迅速普及发展,它已经逐渐融入人们日常生活的方方面面。其中Web是人们在互联网上互相沟通、获取外界信息的重要途径。作为一个很有价值的信息来源,Web凭借其直观便利的使用方式以及丰富的内容表达能力,可以为用户提供多种形式的信息,例如文本、音频、视频等。随着时间的推移,互联网的信息规模及其用户群体规模也在快速增长。互联网用户的需求正在变得越发多样化,如何为用户快速地提供其所感兴趣的信息是目前的一大难题。 如今自媒体已经在互联上逐渐开始兴起,并且其规模越来也庞大,其中不乏各行各业优秀代表人物,因而开始受到越来越多的关注。因此本文提出运用一定的技术手段实现对百度百家这一自媒体平台完成采集其站点内的文章内容。然后对所采集的文章内容进行重新组织,以利于对这些内容的二次利用。围绕这一目标,本文提出了基于网络爬虫的网站信息采集技术的整合方案的设计与实现。 本文提出的基于网络爬虫的网站信息采集技术的整合方案包括信息采集、信息抽取、信息检索这三部分。其中信息采集是基于Heritrix爬虫的扩展(结合HtmlUnit)所实现,负责完成对目标站点的网页采集;信息抽取是基于Jsoup和DOM技术所实现,负责完成从网页中抽取文章信息保存至数据库中,将非结构化信息转化成结构化信息;信息检索是基于Lucene索引工具以及SSH2架构所实现,负责向呈现所采集的文章信息,便于用户浏览。
[Abstract]:With the rapid development of the Internet, it has gradually integrated into all aspects of people's daily life. Among them, Web is an important way for people to communicate with each other and obtain external information on the Internet. As a valuable source of information, Web can provide users with various forms of information, such as text, audio, video and so on. With the passage of time, the information scale of the Internet and the size of its user groups are also growing rapidly. The needs of Internet users are becoming more and more diverse. How to quickly provide information of interest to users is a big problem. Now the media has started to rise gradually in the interconnection, and its scale has become larger and larger, among which there are many outstanding representatives of various industries, so it began to get more and more attention. Therefore, this paper proposes to use certain technical means to complete the collection of articles on Baidu 100 self-media platform. Then the collected content of the article is reorganized to facilitate the secondary use of these contents. Around this goal, this paper puts forward the design and implementation of the integration scheme of Web crawler based website information collection technology. The integration scheme of Web site information collection technology based on web crawler in this paper includes three parts: information collection, information extraction and information retrieval. The information collection is based on the extension of Heritrix crawler (combined with HtmlUnit), which is responsible for accomplishing the web page collection of the target site, and the information extraction is based on the technology of Jsoup and DOM, which is responsible for extracting the article information from the web page and storing it into the database. The information retrieval is based on the Lucene indexing tool and the SSH2 framework, which is responsible for presenting the collected article information and making it easy for users to browse.
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092

【参考文献】

相关期刊论文 前10条

1 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期

2 王学辉;金丹;;Lucene与关系型数据库对比[J];电脑知识与技术(学术交流);2007年03期

3 苏华军;;基于Hibernate的JAVA对象持久化技术[J];电脑知识与技术;2008年29期

4 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

5 蔺跟荣;;基于用户兴趣的个性化Web信息检索方法[J];电子设计工程;2010年07期

6 金岳富;范剑英;冯扬;;分布式Web信息采集系统的设计与实现[J];哈尔滨理工大学学报;2010年01期

7 胡启敏;薛锦云;钟林辉;;基于Spring框架的轻量级J2EE架构与应用[J];计算机工程与应用;2008年05期

8 顾韵华;田伟;;基于DOM模型扩展的Web信息提取[J];计算机科学;2009年11期

9 陈琼,苏文健;基于网页结构树的Web信息抽取方法[J];计算机工程;2005年20期

10 丁宝琼;谢远平;吴琼;;基于改进DOM树的网页去噪声方法[J];计算机应用;2009年S1期

相关博士学位论文 前1条

1 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年



本文编号:1909313

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1909313.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9bd82***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com