当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于T-Graph算法的链接和内容相结合的聚焦爬虫模型

发布时间:2017-06-28 04:18

  本文关键词:基于T-Graph算法的链接和内容相结合的聚焦爬虫模型,由笔耕文化传播整理发布。


【摘要】:聚焦网络爬虫的两大重要目标就是寻找主题相关的网页,并优先下载主题相关度高的网页。首先,读取并分析网页的有效HTML元素,并根据高准确率来预测和抽取每个未被访问的网页的主题内容。然后,根据T-Graph来计算URLs的主题相关度,并按照相关度大小进行排序。本文提出的基于T-Graph的算法综合了多方面的元素,通过实验得到了较高的查准率和查全率,因此,该算法具有重要的意义。
【作者单位】: 南京航空航天大学;
【关键词】聚焦网络爬虫 T-Graph HTML元素 信息检索 搜索引擎
【分类号】:TP391.3
【正文快照】: 0引言网络爬虫的主要任务是从Web上获取网页文档,并为这些数据创建索引,索引的更新是通过分布式爬行实现的。传统的网络爬虫并不能轻松地扩展爬行,因为Web是不受人为控制的。而且,传统的爬虫也不能根据特定的主题目标建立正确的索引,索引库因此也得不到及时的更新。为了解决这

  本文关键词:基于T-Graph算法的链接和内容相结合的聚焦爬虫模型,由笔耕文化传播整理发布。



本文编号:492519

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/492519.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户11e60***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com