社科论文管理论文经济论文科技论文教育论文文艺论文医学论文外语论文硕博论文法律论文理工论文农业论文

当前位置：主页 > 管理论文 > 移动网络论文 >

特定新闻门户网站的信息获取

发布时间：2017-03-30 01:03

本文关键词：特定新闻门户网站的信息获取，由笔耕文化传播整理发布。

【摘要】：随着互联网的迅速发展，人们获取信息的方式渐渐从纸制阅读的报纸、杂志、书籍转化为互联网的电子阅读，与此同时，各传媒企业也逐渐把重心调整到电子传播方式上，例如新浪、搜狐等门户网站的兴起，使得网络的信息传播更加复杂多样且数量繁多，往往一个网页就包含了各种类型的信息，浪费用户大量时间，给用户查看新闻内容带来不少的麻烦。为了使用户更方便的查阅网络信息，本文设计了一个特定新闻门户网站的信息获取系统。在此系统上，我们可以提取并显示新闻网站上的主要信息而避开其他类型信息（如广告信息）的干扰，使用户的阅读更具目的性，便于用户的信息阅读。主要工作包括： 1）针对特定的新闻门户网站，对该新闻信息获取系统进行总体设计。该系统主要三层，分别为应用层、业务逻辑层和数据层。 2）使用网络爬虫对特定的新闻门户网站进行抓取，本文以国内著名新闻门户网站搜狐新闻为例。 3）在2）的基础上，对新闻网页的标签进行深入分析，将抓取到的新闻网页首先进行预处理，然后建立对应的DOM树，，随后进行网页解析，最终达到对新闻门户网站的正文提取的目的。实验结果表明，该系统方案切实可行，初步实现了对特定新闻门户网站的信息获取。本文在Windows7操作系统下进行，使用java作为编程语言，使用MyEclipse作为开发工具构建一个特定新闻门户网站的信息获取系统。本系统是一个交互式的、动态的、对新闻具有多处理功能的新闻门户网站信息获取系统，方便用户使用。用户可以利用该系统进行搜索新闻、浏览新闻、查看上/下一页新闻、查看新闻原网页、清除新闻等功能。
【关键词】：新闻门户网站 信息获取 网络爬虫 java语言
【学位授予单位】：吉林大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP393.092
【目录】：

摘要4-5
Abstract5-10
第1章绪论10-16
1.1 研究背景和意义10-12
1.2 研究现状12-13
1.3 主要研究内容13
1.4 论文结构安排13-16
第2章相关技术16-26
2.1 网络爬虫的介绍16-19
2.1.1 URL 简介16-17
2.1.2 网络爬虫的框架17-18
2.1.3 网络爬虫的爬行策略及其原理18-19
2.2 网页结构分析与 DOM 树19-21
2.3 信息提取21-23
2.3.1 信息提取的简介21-23
2.3.2 信息提取框架23
2.4 java 和 MyEclipse 技术23-25
2.4.1 java 的主要特性23-25
2.4.2 MyEclipse 技术25
2.5 本章小结25-26
第3章需求分析26-32
3.1 任务概述26
3.1.1 目标26
3.1.2 用户26
3.1.3 约束和限制26
3.2 功能性需求分析26-30
3.2.1 功能需求26-27
3.2.2 主要功能划分27-29
3.2.3 其他功能划分29-30
3.3 外部接口需求30
3.3.1 用户界面30
3.3.2 接口30
3.4 非功能性需求分析30-31
3.5 本章小结31-32
第4章系统设计32-38
4.1 系统设计原则32-34
4.2 系统体系结构34-35
4.3 系统详细设计35-37
4.3.1 网页抓取模块35-36
4.3.2 网页解析模块36-37
4.3.3 信息管理模块37
4.4 本章小结37-38
第5章系统实现38-47
5.1 系统实现的环境38-39
5.2 页面布局框架39
5.3 系统代码实现39-41
5.4 系统的功能模块41-46
5.4.1 搜索模块41-43
5.4.2 前进和后退功能模块43-45
5.4.3 查看原网页模块45-46
5.4.4 清除功能模块46
5.4.5 帮助模块46
5.5 本章小结46-47
第6章总结与展望47-49
6.1 总结47
6.2 展望47-49
参考文献49-52
作者简介及在学期间所取得的科研成果52-53
致谢53

【参考文献】

中国期刊全文数据库前8条

1 崔继馨,张鹏,杨文柱;基于DOM的Web信息抽取[J];河北农业大学学报;2005年03期

2 汪建伟;杨冬青;高军;王腾蛟;;一种基于分类算法的网页信息提取方法[J];计算机科学;2008年03期

3 谌志群;张国煊;;文本挖掘研究进展[J];模式识别与人工智能;2005年01期

4 吴夙慧;孙建军;郑彦宁;潘云涛;;链接分析研究进展[J];情报科学;2013年04期

5 冯振明;;Google核心——PageRank算法探讨[J];计算机技术与发展;2006年07期

6 潘大胜;;计算机半结构化数据源的数据挖掘技术探析[J];武汉工业学院学报;2011年04期

7 邵振凯;;网页信息提取技术[J];计算机技术与发展;2013年09期

8 肖毅;张林;聂笑一;;基于WEB挖掘的网络爬虫设计与实现[J];计算机系统应用;2013年09期

本文关键词：特定新闻门户网站的信息获取，由笔耕文化传播整理发布。

本文编号：275829

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/275829.html

上一篇：基于TCAM的OpenFlow关键技术研究
下一篇：基于双单向光闸的双网安全访问的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

最近更新

教材专著

·主编|副主编|备案副主编|编委|参编

热点文章

Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明：资料由用户d4f03***提供，本站仅收录摘要或目录，作者需要删除请E-mail邮箱bigeng88@qq.com