基于主题语义URL的信息搜索方法研究
发布时间:2017-10-30 02:37
本文关键词:基于主题语义URL的信息搜索方法研究
更多相关文章: 主题树 URL语义 搜索引擎 主题-URL映射
【摘要】:为提高主题网络爬虫的效率及收获率,提出一种基于主题语义URL的信息搜索方法。该方法将种子URL映射到主题树的主题结点上,以主题路径上的主题文本扩充种子URL的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子在抓取过程中自动选育新的URL优良种子。重点阐述上述搜索方法的原理及其在系统中的实现。实验结果表明,该搜索方法能有效改善网络爬虫的搜索效率及收获率,且种子链接的选育性能良好。
【作者单位】: 怀化学院计算机工程系;
【关键词】: 主题树 URL语义 搜索引擎 主题-URL映射
【基金】:湖南省教育厅科研项目(10C1064) 怀化学院科研项目(HHUY2010-18) 怀化学院重点学科建设项目
【分类号】:TP391.3
【正文快照】: 0引言及时准确的情报信息是一个行业制定科学决策、赢得竞争优势的基础。信息搜索是快速获取互联网中情报内容的关键技术。因此,面向行业的主题搜索技术[1-5]已成为信息搜索领域的研究热点。通常互联网上的主题页面容易成团出现,页面中的链接也常与主题相关,它们的分布规律可
【参考文献】
中国期刊全文数据库 前2条
1 余e,
本文编号:1115763
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1115763.html