特定新闻门户网站的信息获取
发布时间:2017-03-30 01:03
本文关键词:特定新闻门户网站的信息获取,由笔耕文化传播整理发布。
【摘要】:随着互联网的迅速发展,人们获取信息的方式渐渐从纸制阅读的报纸、杂志、书籍转化为互联网的电子阅读,与此同时,各传媒企业也逐渐把重心调整到电子传播方式上,例如新浪、搜狐等门户网站的兴起,使得网络的信息传播更加复杂多样且数量繁多,往往一个网页就包含了各种类型的信息,浪费用户大量时间,给用户查看新闻内容带来不少的麻烦。为了使用户更方便的查阅网络信息,本文设计了一个特定新闻门户网站的信息获取系统。在此系统上,我们可以提取并显示新闻网站上的主要信息而避开其他类型信息(如广告信息)的干扰,使用户的阅读更具目的性,便于用户的信息阅读。主要工作包括: 1)针对特定的新闻门户网站,对该新闻信息获取系统进行总体设计。该系统主要三层,分别为应用层、业务逻辑层和数据层。 2)使用网络爬虫对特定的新闻门户网站进行抓取,本文以国内著名新闻门户网站搜狐新闻为例。 3)在2)的基础上,对新闻网页的标签进行深入分析,将抓取到的新闻网页首先进行预处理,然后建立对应的DOM树,,随后进行网页解析,最终达到对新闻门户网站的正文提取的目的。 实验结果表明,该系统方案切实可行,初步实现了对特定新闻门户网站的信息获取。 本文在Windows7操作系统下进行,使用java作为编程语言,使用MyEclipse作为开发工具构建一个特定新闻门户网站的信息获取系统。本系统是一个交互式的、动态的、对新闻具有多处理功能的新闻门户网站信息获取系统,方便用户使用。用户可以利用该系统进行搜索新闻、浏览新闻、查看上/下一页新闻、查看新闻原网页、清除新闻等功能。
【关键词】:新闻门户网站 信息获取 网络爬虫 java语言
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要4-5
- Abstract5-10
- 第1章 绪论10-16
- 1.1 研究背景和意义10-12
- 1.2 研究现状12-13
- 1.3 主要研究内容13
- 1.4 论文结构安排13-16
- 第2章 相关技术16-26
- 2.1 网络爬虫的介绍16-19
- 2.1.1 URL 简介16-17
- 2.1.2 网络爬虫的框架17-18
- 2.1.3 网络爬虫的爬行策略及其原理18-19
- 2.2 网页结构分析与 DOM 树19-21
- 2.3 信息提取21-23
- 2.3.1 信息提取的简介21-23
- 2.3.2 信息提取框架23
- 2.4 java 和 MyEclipse 技术23-25
- 2.4.1 java 的主要特性23-25
- 2.4.2 MyEclipse 技术25
- 2.5 本章小结25-26
- 第3章 需求分析26-32
- 3.1 任务概述26
- 3.1.1 目标26
- 3.1.2 用户26
- 3.1.3 约束和限制26
- 3.2 功能性需求分析26-30
- 3.2.1 功能需求26-27
- 3.2.2 主要功能划分27-29
- 3.2.3 其他功能划分29-30
- 3.3 外部接口需求30
- 3.3.1 用户界面30
- 3.3.2 接口30
- 3.4 非功能性需求分析30-31
- 3.5 本章小结31-32
- 第4章 系统设计32-38
- 4.1 系统设计原则32-34
- 4.2 系统体系结构34-35
- 4.3 系统详细设计35-37
- 4.3.1 网页抓取模块35-36
- 4.3.2 网页解析模块36-37
- 4.3.3 信息管理模块37
- 4.4 本章小结37-38
- 第5章 系统实现38-47
- 5.1 系统实现的环境38-39
- 5.2 页面布局框架39
- 5.3 系统代码实现39-41
- 5.4 系统的功能模块41-46
- 5.4.1 搜索模块41-43
- 5.4.2 前进和后退功能模块43-45
- 5.4.3 查看原网页模块45-46
- 5.4.4 清除功能模块46
- 5.4.5 帮助模块46
- 5.5 本章小结46-47
- 第6章 总结与展望47-49
- 6.1 总结47
- 6.2 展望47-49
- 参考文献49-52
- 作者简介及在学期间所取得的科研成果52-53
- 致谢53
【参考文献】
中国期刊全文数据库 前8条
1 崔继馨,张鹏,杨文柱;基于DOM的Web信息抽取[J];河北农业大学学报;2005年03期
2 汪建伟;杨冬青;高军;王腾蛟;;一种基于分类算法的网页信息提取方法[J];计算机科学;2008年03期
3 谌志群;张国煊;;文本挖掘研究进展[J];模式识别与人工智能;2005年01期
4 吴夙慧;孙建军;郑彦宁;潘云涛;;链接分析研究进展[J];情报科学;2013年04期
5 冯振明;;Google核心——PageRank算法探讨[J];计算机技术与发展;2006年07期
6 潘大胜;;计算机半结构化数据源的数据挖掘技术探析[J];武汉工业学院学报;2011年04期
7 邵振凯;;网页信息提取技术[J];计算机技术 与发展;2013年09期
8 肖毅;张林;聂笑一;;基于WEB挖掘的网络爬虫设计与实现[J];计算机系统应用;2013年09期
本文关键词:特定新闻门户网站的信息获取,由笔耕文化传播整理发布。
本文编号:275829
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/275829.html