当前位置:主页 > 管理论文 > 移动网络论文 >

特定新闻门户网站的信息获取

发布时间:2017-03-30 01:03

  本文关键词:特定新闻门户网站的信息获取,由笔耕文化传播整理发布。


【摘要】:随着互联网的迅速发展,人们获取信息的方式渐渐从纸制阅读的报纸、杂志、书籍转化为互联网的电子阅读,与此同时,各传媒企业也逐渐把重心调整到电子传播方式上,例如新浪、搜狐等门户网站的兴起,使得网络的信息传播更加复杂多样且数量繁多,往往一个网页就包含了各种类型的信息,浪费用户大量时间,给用户查看新闻内容带来不少的麻烦。为了使用户更方便的查阅网络信息,本文设计了一个特定新闻门户网站的信息获取系统。在此系统上,我们可以提取并显示新闻网站上的主要信息而避开其他类型信息(如广告信息)的干扰,使用户的阅读更具目的性,便于用户的信息阅读。主要工作包括: 1)针对特定的新闻门户网站,对该新闻信息获取系统进行总体设计。该系统主要三层,分别为应用层、业务逻辑层和数据层。 2)使用网络爬虫对特定的新闻门户网站进行抓取,本文以国内著名新闻门户网站搜狐新闻为例。 3)在2)的基础上,对新闻网页的标签进行深入分析,将抓取到的新闻网页首先进行预处理,然后建立对应的DOM树,,随后进行网页解析,最终达到对新闻门户网站的正文提取的目的。 实验结果表明,该系统方案切实可行,初步实现了对特定新闻门户网站的信息获取。 本文在Windows7操作系统下进行,使用java作为编程语言,使用MyEclipse作为开发工具构建一个特定新闻门户网站的信息获取系统。本系统是一个交互式的、动态的、对新闻具有多处理功能的新闻门户网站信息获取系统,方便用户使用。用户可以利用该系统进行搜索新闻、浏览新闻、查看上/下一页新闻、查看新闻原网页、清除新闻等功能。
【关键词】:新闻门户网站 信息获取 网络爬虫 java语言
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
  • 摘要4-5
  • Abstract5-10
  • 第1章 绪论10-16
  • 1.1 研究背景和意义10-12
  • 1.2 研究现状12-13
  • 1.3 主要研究内容13
  • 1.4 论文结构安排13-16
  • 第2章 相关技术16-26
  • 2.1 网络爬虫的介绍16-19
  • 2.1.1 URL 简介16-17
  • 2.1.2 网络爬虫的框架17-18
  • 2.1.3 网络爬虫的爬行策略及其原理18-19
  • 2.2 网页结构分析与 DOM 树19-21
  • 2.3 信息提取21-23
  • 2.3.1 信息提取的简介21-23
  • 2.3.2 信息提取框架23
  • 2.4 java 和 MyEclipse 技术23-25
  • 2.4.1 java 的主要特性23-25
  • 2.4.2 MyEclipse 技术25
  • 2.5 本章小结25-26
  • 第3章 需求分析26-32
  • 3.1 任务概述26
  • 3.1.1 目标26
  • 3.1.2 用户26
  • 3.1.3 约束和限制26
  • 3.2 功能性需求分析26-30
  • 3.2.1 功能需求26-27
  • 3.2.2 主要功能划分27-29
  • 3.2.3 其他功能划分29-30
  • 3.3 外部接口需求30
  • 3.3.1 用户界面30
  • 3.3.2 接口30
  • 3.4 非功能性需求分析30-31
  • 3.5 本章小结31-32
  • 第4章 系统设计32-38
  • 4.1 系统设计原则32-34
  • 4.2 系统体系结构34-35
  • 4.3 系统详细设计35-37
  • 4.3.1 网页抓取模块35-36
  • 4.3.2 网页解析模块36-37
  • 4.3.3 信息管理模块37
  • 4.4 本章小结37-38
  • 第5章 系统实现38-47
  • 5.1 系统实现的环境38-39
  • 5.2 页面布局框架39
  • 5.3 系统代码实现39-41
  • 5.4 系统的功能模块41-46
  • 5.4.1 搜索模块41-43
  • 5.4.2 前进和后退功能模块43-45
  • 5.4.3 查看原网页模块45-46
  • 5.4.4 清除功能模块46
  • 5.4.5 帮助模块46
  • 5.5 本章小结46-47
  • 第6章 总结与展望47-49
  • 6.1 总结47
  • 6.2 展望47-49
  • 参考文献49-52
  • 作者简介及在学期间所取得的科研成果52-53
  • 致谢53

【参考文献】

中国期刊全文数据库 前8条

1 崔继馨,张鹏,杨文柱;基于DOM的Web信息抽取[J];河北农业大学学报;2005年03期

2 汪建伟;杨冬青;高军;王腾蛟;;一种基于分类算法的网页信息提取方法[J];计算机科学;2008年03期

3 谌志群;张国煊;;文本挖掘研究进展[J];模式识别与人工智能;2005年01期

4 吴夙慧;孙建军;郑彦宁;潘云涛;;链接分析研究进展[J];情报科学;2013年04期

5 冯振明;;Google核心——PageRank算法探讨[J];计算机技术与发展;2006年07期

6 潘大胜;;计算机半结构化数据源的数据挖掘技术探析[J];武汉工业学院学报;2011年04期

7 邵振凯;;网页信息提取技术[J];计算机技术 与发展;2013年09期

8 肖毅;张林;聂笑一;;基于WEB挖掘的网络爬虫设计与实现[J];计算机系统应用;2013年09期


  本文关键词:特定新闻门户网站的信息获取,由笔耕文化传播整理发布。



本文编号:275829

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/275829.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d4f03***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com