一种通用的网页内容抽取模块的设计与实现
发布时间:2017-04-25 19:03
本文关键词:一种通用的网页内容抽取模块的设计与实现,由笔耕文化传播整理发布。
【摘要】:经过数十年的飞速发展,互联网已经成为最主要的信息存储容器,而互联网中绝大部分信息都以HTML页面形式存在,然而HTML页面中信息本身与信息的展现方式(HTML代码)混杂在一起而没有明确的界限,如果脱离了页面信息也就失去了使用价值。本文介绍了一种可以将页面中的信息成功抽取并结构化存储的方案,旨在赋予互联网网页中信息二次利用的价值。 本文针对结构化页面提出了一种通用的内容抽取方案。结构化页面根据不同展现形式可分为三类:静态简单页面,静态自相似页面和动态页面。本文针对不同类型页面采用并实现了三种抽取方法: (1)静态简单页面的抽取主要基于XML配置文件,通过配置节点信息以及字段描述,完成页面信息的抽取。 (2)静态自相似页面主要是指列表类的页面,关键在于抽取出列表里面的信息,找到页面中每个列表项的位置,完成列表内信息的抽取。 (3)动态页面主要是指在用户浏览时页面的展示信息与展示方式会动态发生变化的页面。需要模拟浏览器环境先将动态页面静态化,再按照静态页面抽取方法抽取。 最后本文以新闻详情页测试了静态简单页面的抽取结果,以动态加载的新闻列表页测试了静态自相似页面以及动态网页的抽取效果,并测试了系统抽取大量页面时的时间耗费情况。
【关键词】:HTML 格式化 信息抽取 Ajax 网页内容
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 绪论9-14
- 1.1 课题背景和意义9
- 1.2 国内外研究现状9-11
- 1.3 实际项目需求11
- 1.4 研究内容11-13
- 1.4.1 页面格式化抽取11-12
- 1.4.2 页面数据来源12-13
- 1.4.3 抽取结果的保存13
- 1.5 论文结构安排13-14
- 第2章 相关技术14-25
- 2.1 页面格式化抽取14-16
- 2.1.1 格式化抽取的含义14
- 2.1.2 格式化抽取技术14-16
- 2.2 DOM16-21
- 2.2.1 DOM简介16-19
- 2.2.2 JSoup简介19-20
- 2.2.3 SAX简介20-21
- 2.3 Ajax框架21-23
- 2.3.1 Ajax简介21-22
- 2.3.2 Ajax的工作原理22
- 2.3.3 Ajax给页面抽取带来的挑战22-23
- 2.4 本章小结23-25
- 第3章 页面抽取模块的设计25-37
- 3.1 抽取流程设计25-32
- 3.1.1 页面获取与过滤26
- 3.1.2 页面解析与抽取26-32
- 3.1.3 页面索引与存储32
- 3.2 系统模型设计32-34
- 3.2.1 抽取模块33
- 3.2.2 索引模块33-34
- 3.3 系统流程优化34-36
- 3.3.1 流程分析34
- 3.3.2 流程优化34-36
- 3.4 本章小结36-37
- 第4章 页面抽取模块的实现37-56
- 4.1 系统主体的实现37-39
- 4.1.1 抽取系统主体设计37-38
- 4.1.2 并行抽取方法的详细设计38-39
- 4.2 静态简单页面抽取模块39-45
- 4.2.1 配置文件的设计与实现39-42
- 4.2.2 抽取过程的实现42-45
- 4.3 静态自相似页面抽取模块45-50
- 4.3.1 配置文件的设计与实现45
- 4.3.2 抽取流程的详细设计与实现45-50
- 4.4 动态页面抽取模块50-53
- 4.4.1 HtmlUnit简介50-51
- 4.4.2 动态页面静态化51-52
- 4.4.3 页面抽取52-53
- 4.5 索引存储模块53-55
- 4.5.1 索引存储模块的实现53-54
- 4.5.2 增量全量更新策略54-55
- 4.6 本章小结55-56
- 第5章 测试和结果分析56-63
- 5.1 测试环境56-57
- 5.2 静态简单页面抽取测试57-59
- 5.3 静态自相似页面及动态页面抽取测试59-61
- 5.4 本章小结61-63
- 第6章 结束语63-65
- 6.1 总结63-64
- 6.2 展望64-65
- 参考文献65-67
- 致谢67
【参考文献】
中国期刊全文数据库 前5条
1 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
2 李盛韬;余智华;程学旗;白硕;;Web信息采集研究进展[J];计算机科学;2003年02期
3 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
4 赵欣欣;索红光;刘玉树;;基于标记窗的网页正文信息提取方法[J];计算机应用研究;2007年03期
5 马志强;刘利民;苏依拉;马瑞明;;基于Lucene的站内搜索引擎研究[J];内蒙古工业大学学报(自然科学版);2009年01期
本文关键词:一种通用的网页内容抽取模块的设计与实现,,由笔耕文化传播整理发布。
本文编号:326863
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/326863.html