当前位置:主页 > 科技论文 > 软件论文 >

面向主题的网络爬虫系统的设计与实现

发布时间:2023-10-22 12:38
  随着互联网的普及和网络规模的扩大,网页数据量远远超过了通用搜索引擎的覆盖范围。为提高抓取资源的质量,产生了主题网络爬虫。在爬取过程中,主题网络爬虫倾向于访问主题相似度高的页面。传统的主题爬虫策略通常基于网页文本内容或网页链接结构对网页主题进行分析。基于网页文本内容的主题判定策略只关注了网页正文文本信息,由于没有关注链接结构容易陷入局部最优解;基于网页链接结构的主题判定策略能够通过多个网页链接预测网页主题,但是由于缺少文本辅助判定主题相关性,经常会导致爬虫出现“主题偏移”。尽管现在有混合主题爬行策略的相关研究,改进了主题判定和爬取算法,但在查全率、查准率以及爬取速度方面仍然存在可提升的空间。为了提升主题爬虫的主题判定性能,本文提出了基于HowNet的文本主题相似度判定算法。首先提出了基于“知网”(HowNet)的主题相似度评价方法,针对传统信息量(IC)评价方法计算不够准确的缺点,本文对传统IC计算模型进行了改进。在IC计算过程中增加上位词、同义词、近义词和多义词的处理。针对向量空间模型(VSM)向量维度过高的问题,提出了一种基于HowNet的文本特征降维方法。在利用词频-逆文档频率算法...

【文章页数】:75 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 课题研究的背景和意义
    1.2 论文内容和创新点
    1.3 研究生期间主要工作
    1.4 论文结构
第二章 相关国内外技术研究
    2.1 主题爬虫技术研究现状
        2.1.1 基于文本内容的主题判定策略
        2.1.2 基于网页链接结构的主题判定策略
        2.1.3 基于文本内容和网页链接结构的混合主题判定策略
    2.2 HowNet研究现状
    2.3 基于HowNet的文本主题相似度评价研究现状
    2.4 知识图谱研究现状
    2.5 本章小结
第三章 混合主题相似度判定算法
    3.1 引言
    3.2 基于HowNet的文本主题相似度评价方法
        3.2.1 基于HowNet的IC计算模型的改进
        3.2.2 基于HowNet的文本特征降维方法
        3.2.3 基于知识图谱的主题对比文本
    3.3 改进的混合主题相似度判定方法
    3.4 仿真实验及结论
        3.4.1 实验开发环境
        3.4.2 数据准备
        3.4.3 性能指标
        3.4.4 实验方案和结果分析
    3.5 本章小结
第四章 混合主题爬虫设计与实现
    4.1 引言
    4.2 混合主题爬虫需求分析与概要设计
        4.2.1 系统功能需求分析
        4.2.2 系统基本结构
        4.2.3 系统处理流程
        4.2.4 数据结构设计
    4.3 混合主题爬虫系统详细设计与实现
        4.3.1 网页解析模块详细设计与实现
        4.3.2 文本处理模块详细设计与实现
        4.3.3 主题策略模块详细设计与实现
        4.3.4 主题对比文本模块详细设计与实现
    4.4 系统测试
        4.4.1 测试环境
        4.4.2 功能测试
        4.4.3 性能测试
    4.5 本章小结
第五章 总结和展望
第六章 参考文献
第七章 致谢
第八章 攻读学位期间发表的学术论文目录



本文编号:3856535

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3856535.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a4a91***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com