当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于层次优化的动态概念背景图的主题爬行策略研究

发布时间:2017-11-30 13:34

  本文关键词:基于层次优化的动态概念背景图的主题爬行策略研究


  更多相关文章: 主题爬虫 形式概念分析 概念格 搜索引擎


【摘要】:随着互联网的发展,人们已经习惯了从网络上获取信息。主题搜索引擎越来越受到学术界和企业界的广泛关注。主题搜索引擎主要搜集那些与特定主题相关的网页。主题爬虫是主题搜索引擎的资源采集器,在遍历网络资源的同时会对所采集的网页与特定主题作相关度判断,按照相关度值的大小为一个待爬URL指定一个相应的优先级分值。从而可以保证下载相关网页而舍弃那些偏离主题的网页,使搜集回来的结果更能满足用户的需求。 本文提出了一种基于最优化层次的概念背景图的主题爬行策略,该策略首先需要用户向知名搜索引擎提交查询词,然后从返回的网页链接挑中选几个用户最满意的初始网页,作为本研究的初始种子集。其次,下载种子集对应的网页并且提取网页上的特征词构建概念背景图。然后,在Yahoo!目录上选择不同层次的主题进行概念背景图的分层研究。最后,提出了概念背景图的动态更新方法。 论文的主要研究内容包括以下几点: 1.提出了一种对传统概念背景图进行层次优化的方法。通过将一个完整的概念背景图进行分割成不同的子概念背景图,分别研究每个子概念背景图对网络爬虫的指导性能。 2.提出了最优概念背景图的概念。传统概念背景图往往包含了相应的概念格中的全部概念。这样就把概念格中的所有概念全部分到传统概念背景图的相应层次,那些和核心概念有低相关性的概念就影响了指导性能。 3.在最优化概念背景图的基础上提出了对概念背景图进行动态更新方法。概念背景图一般都是根据初始选中的种子集页面和页面相应的特征词进行构建的。但是,在指导主题爬行的过程中,往往会发现更多的与主题贴近的网页。为了使概念背景图保持活性,本文需要不断对先前的与主题相似度较低的概念进行替换。在替换过程中,动态概念背景图(DCCG)采用了一种淘汰机制,内层概念逐渐取代外层概念。 论文利用经典的召回率、精确度、F-Measure三种度量指标将最优概念背景图与传统的概念背景图进行了比较。同时,也将动态概念背景图与可以更新的概念背景图进行了对比。结果显示,本文的策略有一定的优势和可行性。
【学位授予单位】:西华大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3

【参考文献】

中国期刊全文数据库 前3条

1 陈方;谭爱平;成亚玲;文益民;;主题爬虫技术研究综述[J];湖南工业职业技术学院学报;2008年05期

2 张卫丰;徐宝文;周晓宇;许蕾;李东;;Web搜索引擎综述[J];计算机科学;2001年09期

3 汪涛,樊孝忠;链接分析对主题爬虫的改进[J];计算机应用;2004年S2期



本文编号:1239513

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1239513.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9ff2a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com