用户定制主题聚焦爬虫的设计与实现
发布时间:2017-10-27 03:15
本文关键词:用户定制主题聚焦爬虫的设计与实现
更多相关文章: 聚焦爬虫 k-means best-first策略 自适应主题模型 用户定制主题爬虫
【摘要】:传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行。为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行。通过对初始页面聚类得到主题中心向量,寻找相关网页更新主题中心位置;基于best-first策略实现url排序;基于该模型实现用户定制主题聚焦爬虫。通过对比实验验证了使用该模型的爬虫具有较高的收获比(havest rate)。
【作者单位】: 清华大学电子工程系信息认知与智能系统研究所;清华大学信息科学与技术国家实验室;
【关键词】: 聚焦爬虫 k-means best-first策略 自适应主题模型 用户定制主题爬虫
【基金】:国家863高技术研究发展计划基金项目(2012AA011004) 清华大学自主科研基金项目(20111081023) 国家基金委前瞻计划基金项目(61161140454)
【分类号】:TP393.092
【正文快照】: 0引言互联网时代用户的个性化需求越来越高,在实际应用场景下,不同用户的需求通常存在差异,他们希望在其特定领域及方向上进行“定制化”的主题爬行。传统的聚焦爬虫在开始工作之前需要对指定主题进行建模和训练,在缺乏相应主题训练集的情况下无法完成任务,不能满足用户“个性
【共引文献】
中国期刊全文数据库 前1条
1 仲兆满;李存华;刘宗田;管燕;;一种基于搜索策略的多主题信息采集方法[J];电子学报;2014年12期
中国硕士学位论文全文数据库 前2条
1 冯飞;基于本体概念相似度的主题爬虫中网页排序模型研究[D];北京信息科技大学;2013年
2 李小雷;基于层次优化的动态概念背景图的主题爬行策略研究[D];西华大学;2014年
,本文编号:1101670
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1101670.html