实时垂直搜索引擎数据抓取调度的研究.pdf
本文关键词:实时垂直搜索引擎数据抓取调度研究,由笔耕文化传播整理发布。
浙江大学计算机科学与技术学院
硕士学位论文
实时垂直搜索引擎数据抓取调度研究
姓名:周佳庆
申请学位级别:硕士
专业:计算机应用技术
指导教师:陈刚
20100122
浙江大学硕士学位论文
摘要
摘要
实时垂直搜索引擎的发展解决了互联网用户对大规模高时间敏感度数据的
搜索需求,而抓取任务调度相关技术是实时垂直搜索引擎的关键技术,决定了实
时垂直搜索引擎的性能和用户体验。但是,目前学术界对实时垂直搜索引擎数据
抓取任务调度的相关研究尚未开展,导致现有的实时垂直搜索引擎数据过期、抓
取资源浪费的现象非常严重。
本文对实时垂直搜索引擎的抓取任务调度相关技术进行了详细的总结和研
究。首先对数据抓取的基本问题做了系统的归纳和分析,,总结了实时垂直搜索引
擎的抓取策略和数据变化规律的预测方法。然后提出了一种新的实时垂直搜索引
擎抓取分发优化策略:OLCO策略,基于对象及其属性间的关联设计热门对象预
测模型,对热门对象的变化趋势进行预测;基于用户查询及对象变化符合泊松过
程的特点,推导最大化数据新鲜度的计算方法,从理论上给出资源分配和动态平
衡的最优策略。最后基于OLCO策略提出了一种自适应的实时垂直搜索引擎的任
务抓取分发模型:SACD模型,该模型巧妙地利用了白适应的思想,有效地解决
了实时垂直搜索引擎抓取分发模块配置复杂,维护成本高的问题。
本文使用实际数据对所提出的理论和观点进行了详
本文关键词:实时垂直搜索引擎数据抓取调度研究,由笔耕文化传播整理发布。
本文编号:160403
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/160403.html