轻量级分布式虚假信息爬虫的设计与实现

发布时间:2023-03-05 20:56
  信息是每个社会人的自动需求,在社会中生存发展的人,只有通过获取信息才能够消除的不确定性。近年来,随着智能手机与智能设备的普及,人们能够更加简单快速的从互联网上获取信息,随之而来的问题是:人们获取信息总量在不断增加,但是有部分人并不能有效将信息群中的糟粕信息过滤掉。而在这些垃圾信息中,虚假信息与谣言信息首当其冲。谣言传播后的影响非常严重,其将导致社会公众伦理迷茫,激化社会公众的非理智情绪,使事件发展被人为的向恶化方向推进。因此,需要将虚假信息,谣言从大量的信息群中过滤分离开。虚假信息过滤系统则可以很好的解决这个问题。本系统实现的功能是对相关网络文本的爬取及其中虚假信息的过滤。系统原则上使用深度优先策略来对文本进行爬取,通过相关url爬取算法的优化以及系统的优化,从而增强爬取的效率。系统通过融入分布式集群设计,实现了针对本系统设计的分布式功能与特性,使其可以脱离对其他分布式框架的依赖,从而使本系统相对与一般分布式爬虫而言使用方式耦合度更低,从而实现了轻量级的效果。系统通过使用SpringBoot框架来进行主要开发,并且进行服务的注册及发现操作,负载均衡配置,以及保障微服务的安全性。通过调用...

【文章页数】:76 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 系统开发背景及意义
        1.1.1 系统开发背景
        1.1.2 系统开发意义
    1.2 国内外相关工作
    1.3 研究目标及内容
    1.4 本文主要工作及组织结构
第2章 相关工作综述
    2.1 虚假信息与谣言检测综述
    2.2 网络爬虫技术
    2.3 决策树算法
    2.4 文本预处理
        2.4.1 中文分词技术
        2.4.2 无效文本过滤
    2.5 Spring-Cloud框架及相关技术
        2.5.1 SpringCloud框架
        2.5.2 Eureka服务发现框架
        2.5.3 Hystrix 熔断机制
    2.6 本章小结
第3章 系统总体设计
    3.1 系统功能需求分析
        3.1.1 系统总体功能需求
        3.1.2 待检测文本获取模块需求分析
        3.1.3 文本数据检索需求分析
        3.1.4 文本虚假性分析模块
        3.1.5 系统界面交互功能需求
    3.2 系统非功能性需求分析
    3.3 系统总体设计
        3.3.1 系统总体功能结构设计
        3.3.2 系统总体流程设计
    3.4 系统模块详细设计
        3.4.1 网络爬虫模块详细设计
        3.4.2 分类检索模块详细设计
        3.4.3 虚假信息分析与判断模块详细设计
    3.5 数据存储设计
    3.6 本章小结
第4章 系统关键技术
    4.1 网络爬虫技术优化
        4.1.1 爬取效率的提升
        4.1.2 URL去重
    4.2 虚假信息的分析与判断
        4.2.1 特征值选取
        4.2.2 决策树模型的建立
    4.3 轻量级分布式架构的实现
        4.3.1 轻量级分布式框架的设计
        4.3.2 分布式爬虫系统的运行机制
    4.4 本章小结
第5章 系统实现与测试
    5.1 测试准备
    5.2 测试结果与分析
        5.2.1 登录功能实现与测试
        5.2.2 用户管理实现与测试
        5.2.3 系统管理实现与测试
        5.2.4 文本爬取实现与测试
        5.2.5 文本浏览实现与测试
        5.2.6 文本分析模块实现与测试
        5.2.7 文本分析判断功能实现与测试
    5.3 系统性能测试
    5.4 本章小结
第6章 总结与展望
    6.1 论文总结
    6.2 论文展望
致谢
参考文献
攻读学位期间发表的学术论文及参加科研情况



本文编号:3756900

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3756900.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a55a4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com