基于主题的增量网页并行爬取问题研究
发布时间:2023-01-11 04:48
随着互联网技术日新月异的发展,Web已经成为一个巨大的、分布广泛的信息源。为了有效地利用这些信息,需要从多个不同的信息源中将Web页面爬取下来,经过信息抽取、信息融合等环节,存储到本地数据库中,为市场情报分析等应用提供支持,这个过程称为数据集成。然而,Web数据具有规模宏大、异构性、自治性、动态变化等特点,这使得Web数据自动化集成成为一项极具挑战性的研究课题。Web数据爬取是Web数据集成的关键问题之一,是数据集成的基础。 由于Web数据量的迅猛增长,通过单个普通爬虫在合理的时间内获取足够多的有效信息非常困难,因此,基于主题的增量网页并行爬取引起了国内外研究者的广泛关注,它不仅可以同时爬取多个相关主题的页面,而且增量爬取保证了页面的时新性,并行的爬取架构保证了页面的获取时间。本文针对其中存在的关键问题展开研究,主要工作与贡献概括如下: 1.针对Deep Web增量获取过程中查询词的提交问题,本文提出了基于增量采新率模型的Deep Web增量获取方法 利用之前进行过的Deep web的多次全部爬取返回的结果记录构建增量记录集合,基于这些增量记录,采用机器学习方法获得了...
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景及意义
1.2 研究内容
1.3 论文贡献
1.4 论文组织结构
第2章 基于主题的增量网页并行爬取问题的相关研究
2.1 引言
2.2 爬虫种类
2.3 增量爬取
2.3.1 Surface Web增量爬取
2.3.2 Deep Web增量爬取
2.4 并行爬取
2.5 小结
第3章 基于增量采新率模型的Deep Web增量获取方法
3.1 引言
3.2 Web数据库版本
3.3 集合覆盖模型
3.4 基于IHM的Deep Web增量获取方法
3.4.1 IHM概况
3.4.2 IHM的构建
3.4.3 特征的选择
3.4.4 IHM的学习
3.5 实验
3.5.1 评价标准
3.5.2 数据集
3.5.3 实验结果及其分析
3.6 小结
第4章 基于更新频率判断模型的Surface Web增量获取方法
4.1 引言
4.2 基于CFG的更新频率判断模型
4.2.1 相关定义
4.2.2 基于CFG的更新频率判断模型
4.2.3 基于CFG的更新频率判断算法
4.2.3.1 变化模式预测
4.2.3.2 中心页面选择
4.3 基于更新频率判断模型的增量爬取过程
4.4 实验
4.4.1 评价标准
4.4.2 数据集
4.4.3 实验结果及其分析
4.5 小结
第5章 基于主题的增量网页并行爬取方法
5.1 引言
5.2 基于主题的增量网页并行爬取系统架构
5.3 URL调度分配模型
5.3.1 Crawler评估因素的选择及量化
5.3.2 各评估因素权重的计算
5.3.2.1 建立层次结构图
5.3.2.2 建立各级判定矩阵
5.3.2.3 综合重要度的计算
5.3.3 对Crawler进行排序
5.4 URL分配算法
5.5 二级控制器
5.6 URL排序模型
5.7 实验
5.7.1 评价标准
5.7.2 数据集
5.7.3 实验结果及其分析
5.8 小结
第6章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
攻读学位期间发表的学术论文目录
攻读学位期间参与科研项目情况
学位论文评阅及答辩情况表
【参考文献】:
期刊论文
[1]基于标签编码的Deep Web查询接口识别方法[J]. 王妍,宋宝燕,张佳旸,张洪梅,李晓光. 计算机应用. 2011(05)
[2]一种基于语义及统计分析的Deep Web实体识别机制[J]. 寇月,申德荣,李冬,聂铁铮. 软件学报. 2008(02)
[3]Web网页信息变化的时间局部性规律及其验证[J]. 孟涛,闫宏飞,王继民. 情报学报. 2005 (04)
博士论文
[1]Deep Web数据集成关键问题研究[D]. 董永权.山东大学 2010
本文编号:3729440
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景及意义
1.2 研究内容
1.3 论文贡献
1.4 论文组织结构
第2章 基于主题的增量网页并行爬取问题的相关研究
2.1 引言
2.2 爬虫种类
2.3 增量爬取
2.3.1 Surface Web增量爬取
2.3.2 Deep Web增量爬取
2.4 并行爬取
2.5 小结
第3章 基于增量采新率模型的Deep Web增量获取方法
3.1 引言
3.2 Web数据库版本
3.3 集合覆盖模型
3.4 基于IHM的Deep Web增量获取方法
3.4.1 IHM概况
3.4.2 IHM的构建
3.4.3 特征的选择
3.4.4 IHM的学习
3.5 实验
3.5.1 评价标准
3.5.2 数据集
3.5.3 实验结果及其分析
3.6 小结
第4章 基于更新频率判断模型的Surface Web增量获取方法
4.1 引言
4.2 基于CFG的更新频率判断模型
4.2.1 相关定义
4.2.2 基于CFG的更新频率判断模型
4.2.3 基于CFG的更新频率判断算法
4.2.3.1 变化模式预测
4.2.3.2 中心页面选择
4.3 基于更新频率判断模型的增量爬取过程
4.4 实验
4.4.1 评价标准
4.4.2 数据集
4.4.3 实验结果及其分析
4.5 小结
第5章 基于主题的增量网页并行爬取方法
5.1 引言
5.2 基于主题的增量网页并行爬取系统架构
5.3 URL调度分配模型
5.3.1 Crawler评估因素的选择及量化
5.3.2 各评估因素权重的计算
5.3.2.1 建立层次结构图
5.3.2.2 建立各级判定矩阵
5.3.2.3 综合重要度的计算
5.3.3 对Crawler进行排序
5.4 URL分配算法
5.5 二级控制器
5.6 URL排序模型
5.7 实验
5.7.1 评价标准
5.7.2 数据集
5.7.3 实验结果及其分析
5.8 小结
第6章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
攻读学位期间发表的学术论文目录
攻读学位期间参与科研项目情况
学位论文评阅及答辩情况表
【参考文献】:
期刊论文
[1]基于标签编码的Deep Web查询接口识别方法[J]. 王妍,宋宝燕,张佳旸,张洪梅,李晓光. 计算机应用. 2011(05)
[2]一种基于语义及统计分析的Deep Web实体识别机制[J]. 寇月,申德荣,李冬,聂铁铮. 软件学报. 2008(02)
[3]Web网页信息变化的时间局部性规律及其验证[J]. 孟涛,闫宏飞,王继民. 情报学报. 2005 (04)
博士论文
[1]Deep Web数据集成关键问题研究[D]. 董永权.山东大学 2010
本文编号:3729440
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3729440.html