林产品供求WEB信息增量获取
发布时间:2017-12-14 09:36
本文关键词:林产品供求WEB信息增量获取
更多相关文章: 林产品贸易信息 增量爬虫 LCS 泊松分布 模版
【摘要】:近年来,互联网的高速发展与快速普及使得信息无处不在、无孔不入。伴随着互联网的发展,我国的林产品贸易信息类网站也日益成熟,林产品贸易信息的数量急剧增加,用户面对海量的数据信息很容易产生信息迷航,针对这些问题面向林产品贸易信息的信息聚合网站和垂直搜索引擎等网络应用系统应运而生。此类应用需要从不同的信息源中将Web网页抓取下来,经信息提取、信息融合等环节,将信息存储至本地数据库,在该过程中网络爬虫负责将Web页面抓取至本地,是整个过程的基础。然而Web信息数据量巨大,分布广泛,更新变化频繁,在有限的时间和资源内获取足够多的有效的数据成为传统爬虫的一个巨大挑战。为了解决此问题,增量爬虫逐渐成为近年来学者们研究的热点。 本文首先对林产品贸易Web网站的结构以及贸易信息特点进行了总结分析,针对林产品贸易Web网站结构类似且多采用目录导航结构的特点,构建了基于模版的林产品贸易主题Web网页抓取程序。而后,根据林产品贸易Web信息特征,提出了基于LCS(Longest Common Subsequence,最长公共子序列)的林产品贸易Web信息去噪方法。根据Web页面更新变化特点,构建了基于URL和网页内容变化的增量抓取程序。文章最后选取了比较有代表性的林产品贸易网站为实验对象对本系统进行了验证。实验结果表明该系统能准确抓取到林产品贸易Web信息,并利用较少的时间和网络资源完成网页的更新。
【学位授予单位】:北京林业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:F326.2;F323.7
【参考文献】
中国期刊全文数据库 前1条
1 孟涛;王继民;闫宏飞;;网页变化与增量搜集技术[J];软件学报;2006年05期
,本文编号:1287429
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1287429.html