当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于仿生学的主题爬虫搜索策略及关键技术研究

发布时间:2021-10-26 23:32
  主题爬虫(Focused Crawler)是主题搜索引擎的关键部件,目的是检索最大数量的与特定主题相关的网页。它会根据相关算法或者特定策略进行网页筛选,直到达到一定的下载数量、迭代次数或者主题相似度的精度阈值为止。比之通用爬虫,主题爬虫需要解决以下问题:主题定义、网页数据的分析、未知URL的搜索策略。对于主题定义、网页数据的分析已经比较准确和全面。而未知URL的搜索策略一直是主题爬虫研究领域的热点及难点,该领域的研究从最初的基于内容和链接到利用叙词表和本体,再到目前基于机器学习算法,主题爬虫的搜索精度和覆盖率都有了一定的提升。然而,当前主题爬虫的搜索策略研究依然存在着主题计算准确率较低,抓取网页的覆盖率不高,容易出现主题偏移,种子页面选取不合理等问题。为了解决以上问题,本文对主题爬虫搜索策略及相关技术进行了如下研究:1.本文设计了一个基于变异思想改进粒子群算法的主题爬虫模型。首先,对于每个主题基于点击率获取3种容易产生大规模聚集的网页群中的典型页面。然后,计算每个主题3种种子页面的权值,将权值作为粒子群爬虫的初始速度和方向值,使用本文提出的基于变异思想改进的粒子群算法抓取页面。其中,本... 

【文章来源】:重庆邮电大学重庆市

【文章页数】:66 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 研究背景
    1.2 研究现状
        1.2.1 搜索策略
        1.2.2 种子页面选择
        1.2.3 主题爬虫领域的主要问题
    1.3 论文研究内容及意义
    1.4 论文组织结构
第2章 相关理论与技术
    2.1 仿生学算法
        2.1.1 粒子群算法
        2.1.2 遗传算法
    2.2 相似度计算
        2.2.1 欧几里德距离
        2.2.2 余弦相似度
    2.3 主题爬虫搜索策略
        2.3.1 VSM爬虫
        2.3.2 SSRM爬虫
    2.4 种子页面选取策略BFC
    2.5 非重叠社区发现算法
    2.6 本章小结
第3章 基于变异思想改进粒子群算法的主题爬虫模型
    3.1 问题提出与解决办法
    3.2 模型框架
    3.3 种子页面的选取
    3.4 页面初始权值计算
        3.4.1 网页文本预处理
        3.4.2 关键词选择
        3.4.3 计算网页权重
        3.4.4 基于VR-PSO算法抓取页面
    3.5 实验与分析
        3.5.1 实验设计
        3.5.2 实验评价指标
        3.5.3 实验结果与分析
    3.6 本章小结
第4章 基于改进Louvain算法的种子页面选取框架
    4.1 问题提出与解决办法
    4.2 模型框架
    4.3 加权的Louvain算法
    4.4 选取核心子团
    4.5 页面选择
    4.6 实验与分析
        4.6.1 实验环境
        4.6.2 实验设计
        4.6.3 实验结果与分析
    4.7 本章小结
第5章 结论
    5.1 研究工作总结
    5.2 未来工作展望
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果


【参考文献】:
期刊论文
[1]融合链接结构的主题爬虫算法[J]. 刘韶涛,李洪胜.  华侨大学学报(自然科学版). 2017(02)
[2]一种基于本体语义的灾害主题爬虫策略[J]. 马雷雷,李宏伟,连世伟,梁汝鹏,陈虎.  计算机工程. 2016(11)
[3]Mining and Harvesting High Quality Topical Resources from the Web[J]. ZHAO Wei,GUAN Ziyu,CAO Zhengwen,LIU Zheng.  Chinese Journal of Electronics. 2016(01)
[4]主题网络爬虫研究综述[J]. 于娟,刘强.  计算机工程与科学. 2015(02)
[5]一种新的基于概念树的主题网络爬虫方法[J]. 谢志妮.  计算机与现代化. 2010(04)
[6]基于叙词表的主题爬虫技术研究[J]. 夏崇镨,康丽.  现代图书情报技术. 2007(05)

硕士论文
[1]基于主题爬虫的食品安全网络舆情分析方法研究与监测系统开发[D]. 吴强强.北京化工大学 2016



本文编号:3460411

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3460411.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户64df9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com