当前位置:主页 > 管理论文 > 移动网络论文 >

面向动态网页的定向信息提取模型的设计与实现

发布时间:2017-08-14 19:41

  本文关键词:面向动态网页的定向信息提取模型的设计与实现


  更多相关文章: 定向信息提取模型 动态网页 网络爬虫 动态脚本 信息提取


【摘要】:随着Web2.0技术的出现以及快速发展,互联网中出现了越来越多的动态网页。Ajax技术实现了客户端与服务器之间的异步数据传输操作,不仅提高了用户的体验度,而且促进了动态网页的普及和互联网的发展。但是,这也使得依据HTML源码进行信息提取的传统网络爬虫无法提取到动态网页中的动态信息。因此,支持动态网页的信息提取的研究具有一定的实践意义。为此,本文提出了一种面向动态网页的定向信息提取模型。首先,分析了与动态网页定向信息提取相关的理论与技术,同时将研究对象Web页面分为静态网页和动态网页两类,并对其进行了详细的对比分析。在此基础上,分析了动态网页广泛采用的Ajax技术对信息提取带来的挑战。最后,对超文本标记语言、DOM模型和正则表达式在信息提取中的作用进行了详细介绍。其次,分析了传统网络爬虫爬取动态网页的缺陷和不足,提出了一种面向动态网页的定向信息提取模型。其工作流程为首先通过HTTP请求获取网页,然后采用HtmlUnit来解析与执行动态脚本,并模拟提交页面表单;最后,利用jsoup构建DOM树,从而提取页面信息和URL,并存储到数据库中。再次,结合所提出的面向动态网页的定向信息提取模型,给出了各个组成模块的具体实现方法:采用广度优先搜索策略爬取网站中的网页,使用布隆过滤器对URL链接进行去重处理,利用正则表达式和jsoup选择器提取网页信息和URL链接,并采用多线程爬虫技术来提高该模型的性能。最后,基于所提出的面向动态网页的信息提取模型,以燕山大学百度贴吧为爬取对象进行实验,并从模型的效率和性能两个方面进行实验设计。通过对爬取结果进行分析可知,所提出的模型在准确率、召回率和F值等评价指标下均有较好的结果,验证了所提模型的高效率和高性能。
【关键词】:定向信息提取模型 动态网页 网络爬虫 动态脚本 信息提取
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-11
  • 第1章 绪论11-16
  • 1.1 研究背景与意义11-12
  • 1.2 国内外研究现状12-14
  • 1.3 主要研究内容14
  • 1.4 要解决的关键技术问题14-15
  • 1.5 论文的组织结构15-16
  • 第2章 理论与技术分析16-29
  • 2.1 Web2.016-18
  • 2.1.1 Web2.0 简介16-17
  • 2.1.2 Web2.0 的特点17-18
  • 2.2 网页页面类型18-21
  • 2.2.1 静态网页18-19
  • 2.2.2 动态网页19-21
  • 2.3 Ajax技术21-26
  • 2.3.1 Ajax简介21-22
  • 2.3.2 Ajax的工作原理22-24
  • 2.3.3 Ajax在网页开发中的应用24-25
  • 2.3.4 Ajax技术引发的问题25-26
  • 2.4 网页结构分析技术26-28
  • 2.4.1 文档对象模型26-27
  • 2.4.2 正则表达式27-28
  • 2.5 本章小结28-29
  • 第3章 面向动态网页的定向信息提取模型的设计29-41
  • 3.1 面向动态网页的定向信息提取问题分析29-31
  • 3.2 面向动态网页的定向信息提取模型设计31-33
  • 3.2.1 面向动态网页的定向信息提取模型31-32
  • 3.2.2 面向动态网页的定向信息提取模型的工作流程32-33
  • 3.3 页面爬行策略与流程33-35
  • 3.3.1 页面爬行搜索策略33-34
  • 3.3.2 页面爬行流程34-35
  • 3.4 页面分析方法设计35-38
  • 3.4.1 JavaScript脚本嵌入方式35-36
  • 3.4.2 form表单的识别36-37
  • 3.4.3 页面分析流程37-38
  • 3.5 页面生成方法与流程38-40
  • 3.6 本章小结40-41
  • 第4章 面向动态网页的定向信息提取系统的实现41-57
  • 4.1 系统总体设计41-42
  • 4.2 初始URL模块42
  • 4.3 页面爬行模块42-44
  • 4.4 页面分析模块44-46
  • 4.4.1 JavaScript脚本代码的识别与筛选44-45
  • 4.4.2 表单的识别与筛选45-46
  • 4.5 页面生成模块46-48
  • 4.5.1 JS解析模块46-47
  • 4.5.2 表单解析模块47-48
  • 4.6 信息提取模块48-50
  • 4.6.1 信息提取方法48-49
  • 4.6.2 信息提取模型数据库设计49-50
  • 4.7 链接过滤模块50-54
  • 4.7.1 布隆过滤器50-52
  • 4.7.2 基于布隆过滤器的链接过滤算法52-54
  • 4.8 线程管理模块54-55
  • 4.9 系统接口设计55-56
  • 4.10 本章小结56-57
  • 第5章 实验与结果分析57-65
  • 5.1 实验环境设置57
  • 5.2 评价指标57-58
  • 5.3 实验结果及分析58-64
  • 5.3.1 定向信息提取效率实验61-63
  • 5.3.2 定向信息提取性能实验63-64
  • 5.4 本章小结64-65
  • 结论65-67
  • 参考文献67-70
  • 攻读硕士学位期间承担的科研任务与主要成果70-71
  • 致谢71

【相似文献】

中国期刊全文数据库 前10条

1 张玉孔;;变量传递在ASP动态网页中的应用分析[J];计算机系统应用;2007年08期

2 卢新建;;试谈ASP动态网页课程的教学探索[J];电脑编程技巧与维护;2010年24期

3 杨振宇;建立动态网页──ASP应用举例[J];电脑技术;1998年06期

4 李嘉;开发动态网页的利器——ASP[J];计算机与通信;1998年Z1期

5 花飘飘;动态网页之绝招大全[J];多媒体世界;1999年06期

6 赵小林,陈英,刘然;动态网页规划与实现机制[J];北京理工大学学报;2001年01期

7 丁振凡,邹芝兰;ASP动态网页中基于日期的条件查询设计技术[J];计算机时代;2001年03期

8 罗媛;利用HTML设计动态网页[J];芜湖职业技术学院学报;2001年03期

9 杨毅;浅谈动态网页[J];成都师专学报;2002年04期

10 祝小华,杨建刚;动态网页加速技术[J];计算机应用;2002年04期

中国重要会议论文全文数据库 前4条

1 冉熙璐;段磊;吕广奕;陈珂;李钟麒;黄东兰;唐常杰;;基于对比学习的动态网页用户评论获取方法[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

2 于平福;刘凯龙;;基于ASP的农业网站动态网页的设计研究[A];山西省科学技术情报学会学术年会论文集[C];2004年

3 邵辉;李芳;;基于树模型算法的动态网页信息抽取研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

4 牟琦;;创建电子商务平台的技术解决方案[A];第十一届全国煤矿自动化学术年会论文专辑[C];2001年

中国重要报纸全文数据库 前5条

1 丁一;“活的老鼠”不好抓[N];计算机世界;2001年

2 北京 董智勇;动态网页新技术[N];中国电脑教育报;2001年

3 邹肇辉 何艳阳;动态网页打造利器——JSP[N];电脑报;2005年

4 Besky;轻松打造动态网页菜单[N];电脑报;2003年

5 慰鹏飞;走进编程之网络篇(四)[N];江苏经济报;2001年

中国硕士学位论文全文数据库 前9条

1 杨柳;基于用户界面状态改变的Ajax动态网页爬取算法研究[D];北京交通大学;2016年

2 盛洁;面向动态网页的定向信息提取模型的设计与实现[D];燕山大学;2016年

3 王婷;面向授权管理的动态网页资源描述与搜集技术研究[D];解放军信息工程大学;2007年

4 段国云;基于环结构的动态网页防篡改系统的设计与实现[D];湖南大学;2012年

5 潘敏;动态网页防篡改方法与技术研究[D];南昌航空大学;2012年

6 郭常宏;借助动态网页及局域网内数据库数据调用实现电视台工作单管理及成本核算的开发调试和研究[D];山东大学;2006年

7 童罕;面向LXR的动态网页加速技术研究与实现[D];国防科学技术大学;2008年

8 李魁;大规模Web论坛采集技术研究[D];中国科学院研究生院(计算技术研究所);2006年

9 沈祥;基于FPGA的嵌入式动态网页Java Web服务器的研究与实现[D];上海交通大学;2011年



本文编号:674409

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/674409.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3cb66***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com