分布式JS解析在web信息采集系统中的研究与应用
发布时间:2017-12-23 19:30
本文关键词:分布式JS解析在web信息采集系统中的研究与应用 出处:《河北工业大学》2015年硕士论文 论文类型:学位论文
更多相关文章: 信息采集 JavaScript 脚本解析 Hadoop 调度算法 和声搜索算法
【摘要】:随着互联网技术的飞速发展,网络在人们生活当中的应用范围越来越广泛。一方面,由互联网产生的海量数据中包含了许多有利用价值的信息,这就对web信息的采集提出了需求;另一方面,越来越多的新技术被运用于互联网领域,其中动态网页技术,尤其是动态脚本技术的运用,很大程度地提升了网页的功能性、美观性以及用户使用时的体验,但由于原有的网页信息采集系统不能够对脚本进行解析,所以无法实现对动态网页信息的采集。针对此问题,本文设计实现了一个基于分布式计算的网页脚本提取解析系统,并将其与原有信息采集系统相结合,从而实现了信息采集系统对动态网页信息准确、高效的采集。首先,通过对JavaScript脚本语言和常用解析引擎的研究分析,设计了脚本提取解析的流程,主要包括脚本程序的提取和解析环境的构建。其次,将JavaScript脚本提取解析与Hadoop分布式计算相结合,通过对现有Hadoop调度算法的研究分析,结合脚本提取解析系统实际运行所处的异构集群环境,设计了异构集群环境下基于和声搜索的调度算法。再次,为了将脚本提取解析系统与原有信息采集系统相结合,以原有的Nutch系统的文件存储结构为基础,设计了系统整体文件结构和数据存储格式。最后,完成了系统的MapReduce编程实现,并在实际的Hadoop平台上进行了测试。通过对测试结果的分析,验证了整合脚本提取解析系统之后的信息采集系统能够对动态网页进行信息采集,并且采用基于和声搜索的调度算法在异构集群环境中提高了脚本提取解析任务的执行效率。可见本文提出的方案实现了信息采集系统对动态网页信息准确、高效的采集,为信息采集相关领域提供了一种技术改进思路。
【学位授予单位】:河北工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.09;TP301.6
【参考文献】
相关硕士学位论文 前1条
1 黄维;分布式JS解析系统的设计与构建[D];北京交通大学;2014年
,本文编号:1325196
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1325196.html