分布式JS解析系统的设计与构建
发布时间:2017-03-30 20:05
本文关键词:分布式JS解析系统的设计与构建,,由笔耕文化传播整理发布。
【摘要】:随着互联网技术的飞速发展,网页的页面视图效果越来越美观,使用的页面编程技术也不仅仅局限于HTML、CSS等静态语言。以JavaScript为代表的动态脚本由于其功能强大,使界面观赏程度高等优势越来越受到开发者和用户的青睐。但是由于其编写复杂程度比传统的静态网页技术高,所以在搜索引擎、舆论分析等领域进行网页内容抓取和分析的时候,很难对JavaScript中包含的信息进行解析。所以本论文在设计并构建能够高效解析网页中JavaScript的分布式系统时,能够完成对存在于HTML文档中的JavaScript片段进行高效的提取和分布式解析的功能,并且在分布式计算机集群中合理的进行任务调度。 该论文主要包括两个研究方向:首先是对网页中存在的JavaScript进行有效的提取和解析;然后结合Hadoop分布式计算技术,在深入分析现有任务调度算法、结合本系统实际情况的基础之上,设计本系统在分布式计算环境中的任务调度算法,合理的进行JavaScript解析任务调度,实现对页面中包含的JavaScript片段的高效解析。通过对JavaScript语法规则和其在网页中的存在形式的研究,设计了JavaScript的提取流程和算法,然后借鉴浏览器解析JavaScript的方法,使用JavaScript解析引擎,构造JavaScript解析环境来实现第一模块。通过对现有Map/Reduce任务调度算法的研究、分析和对比,并结合JavaScript解析任务的具体特点和分布式集群的环境,探究最适合本系统的Map/Reduce任务调度算法。对JavaScript解析任务进行合理调度,然后搭建计算机集群,对设计的分布式JavaScript解析系统进行构建。最后对分布式JS解析系统进行测试,对其应用性能和解析准确性进行验证,并且总结系统的不足,提出后续改进意见。 本文实现的分布式系统能够对网页中存在的大量JavaScript进行高效、快速的解析。实验结果表明,本系统能够对网页中JavaScript片段内包含的文本文字和超链接内容进行高效、准确的提取和解析。从而,本文的研究和实现工作能够为搜索引擎、舆论分析、数据采集等领域提供更高效可靠的技术支持。
【关键词】:JavaScript解析 Hadoop Map/Reduce任务调度 JavaScript解析引擎
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP312.1
【目录】:
- 致谢5-6
- 中文摘要6-7
- ABSTRACT7-8
- 目录8-10
- 1 绪论10-15
- 1.1 研究背景10-11
- 1.2 研究现状11-12
- 1.3 工作内容12-13
- 1.4 论文组织结构13-15
- 2 JS解析与分布式计算15-29
- 2.1 JavaScript解析15-20
- 2.1.1 JavaScript脚本语言15-16
- 2.1.2 JavaScript解析引擎16-20
- 2.2 Hadoop分布式计算20-28
- 2.2.1 分布式计算20-21
- 2.2.2 Hadoop框架21-22
- 2.2.3 Map/Reduce研究22-24
- 2.2.4 HDFS文件存取24-28
- 2.3 本章小结28-29
- 3 JS解析与任务调度算法研究29-43
- 3.1 系统整体结构29-30
- 3.2 JavaScript提取和运行环境30-34
- 3.2.1 JavaScript提取和解析流程30-31
- 3.2.2 JavaScript提取算法31-33
- 3.2.3 JavaScript解析对象33-34
- 3.3 JavaScript解析任务调度34-42
- 3.3.1 Map/Reduce原有调度算法35-36
- 3.3.2 容量调度算法36-37
- 3.3.3 公平调度算法37-39
- 3.3.4 自适应调度算法39-40
- 3.3.5 Map/Reduce调度算法总结40-42
- 3.4 本章小结42-43
- 4 分布式JS解析系统的构建43-52
- 4.1 系统工作流程43-44
- 4.2 网页爬取44-45
- 4.3 JavaScript提取45-46
- 4.4 JavaScript解析任务调度46-48
- 4.4.1 Datanode状态采集46-47
- 4.4.2 Namenode任务调度47-48
- 4.5 JavaScript解析任务调度48-51
- 4.5.1 JavaScript解析环境管理48-49
- 4.5.2 Map/Reduce实现49-51
- 4.6 本章小结51-52
- 5 分布式JS解析系统的测试与分析52-59
- 5.1 测试环境52-53
- 5.2 软件环境搭建53
- 5.3 系统测试与分析53-57
- 5.3.1 系统测试53-55
- 5.3.2 结果分析55-57
- 5.4 测试结果总结57-58
- 5.5 本章小结58-59
- 6 总结与展望59-62
- 6.1 论文总结59-60
- 6.2 展望60-62
- 参考文献62-64
- 作者简历64-66
- 学位论文数据集66
【参考文献】
中国期刊全文数据库 前10条
1 杨俊;李艳梅;;JavaScript面向对象编程探析[J];办公自动化;2010年08期
2 李鑫;张鹏;;Hadoop集群公平调度算法的改进与实现[J];电脑知识与技术;2012年01期
3 李彦刚;魏海平;侯兴华;;基于HTMLParser的Web信息抽取系统的设计与实现[J];辽宁石油化工大学学报;2006年02期
4 蒲东兵;杨立明;周彦军;车文隆;马志强;;基于嵌入式浏览器的JavaScript解析器设计[J];信息技术;2010年04期
5 邵X;刘宗田;;脚本语言发展研究[J];计算机科学;2000年01期
6 李丽英;唐卓;李仁发;;基于LATE的Hadoop数据局部性改进调度算法[J];计算机科学;2011年11期
7 李勇军,冀汶莉,马光思;用DOM解析XML文档[J];计算机应用;2001年S1期
8 李明;胥光辉;戢瑶;;MapReduce编程模型在网络I/O密集型程序中的应用研究[J];计算机应用研究;2011年09期
9 ;探知Chrome快速的秘密 体验极速快感[J];计算机与网络;2012年15期
10 张春英;栾晓明;;改进的正比公平调度算法[J];信息技术;2011年08期
本文关键词:分布式JS解析系统的设计与构建,由笔耕文化传播整理发布。
本文编号:277946
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/277946.html