企业舆情监控系统POMS的设计与实现
发布时间:2024-04-12 18:53
随着互联网的飞速发展,各类企业相关的舆情信息和行业动态信息呈爆炸式增长,舆情信息对企业发展起着重要作用。因此,如何在海量信息中获取对企业有价值的信息,具有一定的研究价值。企业舆情监控系统经过多年的发展,在帮助企业获取、搜索、分析和监控与企业相关的舆情信息方面取得了一定的进展,得到了较广泛的应用。但面对越来越多的各类网站、论坛、微博和微信等自媒体数据,如何有效地获取相关信息,并在数据预处理的正文提取过程中,兼顾速度和质量,快速有效地提取企业相关的信息;如何面向企业用户个性化地推荐他们感兴趣的信息依然是一个没有解决好的问题。基于上述问题,本文设计并实现了企业舆情系统POMS,其主要工作包括如下几个方面:1.构建了舆情监控系统框架,设计并实现了舆情监控系统POMS的数据采集模块、事件分析模块、全文检索模块、文章推荐模块和用户管理模块。2.针对数据预处理中正文提取方法难以兼顾速度和质量的问题,研究网页正文提取算法,分析了基于标签路径比率的网页新闻提取算法和基于行块分布的正文提取算法的优缺点,提出并实现了先探测网页正文位置并将正文位置入库,再提取正文的方法。3.针对舆情监控系统中全文检索模块中检...
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
本文编号:3951820
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图2-1Scrapy主要模块之间的协同工作图
图2-1Scrapy主要模块之间的协同工作图Fig.2-1Scrapyworkflowpicture图2-1为Scrapy主要模块之间的协同工作图。每个模块的功能如下:1)Scrapy引擎:爬虫的核心部分,是程序的入口和主要工作单元,负责与调度器、数据结构化....
图3-1搜狗微信接口Fig.3-1WebAPIofsogouweixin
图3-1搜狗微信接口Fig.3-1WebAPIofsogouweixin在舆情监控系统中提供了对新闻网站、论坛网站、新浪微博以及微信等网站上所发布的信息进行爬取监控的功能。本章主要介绍了舆情监控系统中数据采集模块如何对微信公众号上的文章进行爬取。数据采集模块通过腾讯提....
图3-2搜狗微信搜索结果图
图右边为查询结果列表在网页中的XPATH信息。由于搜狗微信接口的网页页面时常会进行更新,所以需要定期更新查询结果列表的XPATH信息。本文将XPATH信息存储于MySql关系型数据库中,通过外部配置XPATH信息的方式定期更新XPATH信息。搜狗微信关键词....
图3-3采集文章示例
-25-图3-3采集文章示例Fig.3-3Exampleofcrawlcontentresult
本文编号:3951820
本文链接:https://www.wllwen.com/jingjilunwen/xmjj/3951820.html