基于搜索引擎的网络舆情监控系统设计与实现
本文关键词:基于搜索引擎的网络舆情监控系统设计与实现,由笔耕文化传播整理发布。
增刊1叶昭晖等:基于搜索引擎的网络舆情监控系统设计与实现303息,能快速形成网络舆论,进而产生巨大的舆论压力影响相关部门。可以说,互联网已成为社会舆论的放大器。
如何对网上言论进行有效及时的监控,快速定位不良信息的源头,已经成为一些部门和机构必须面对的重要课题。本文利用搜索引擎(searchengine)的基本原理,在充分分析、综合应用网络监控、页面
信息挖掘(webmining)等技术的基础之上,设计实现了个性化网络舆论自动监控与分析系统,通采集、
过对搜索引擎、热门论坛、门户网站、博客等主流网络信息来源进行监控,采集用户关心的信息,并根据
分析和整理,最终将分析结果推送给相关部门。不同来源归类、
1
1.1相关原理及分析舆情监控系统概念及现状
网络舆情监控是指通过对网络各类信息汇集、分类、整合、筛选等技术处理,再形成对网络热点、动
[3]态、网民意见等实时统计报表的一个过程。
传统舆情监控系统使用流量镜像的方法监控信息源,并结合一系列的统计和分析手段分析来源数据。这种方法能较为全面地收集各种网络信息,包括即时通讯、论坛、博客等,信息源头的追查也较为准确,但亦存在以下问题:
①实施成本高。其系统一般都由软、硬件两个部分组成,价格昂贵,硬件负责流量采集,软件负责流量分析。
②实施难度大。其系统需要在主干链路中架设分流设备,一方面需要协调ISP网络管理部门,另一方面需要有专业的人员对设备进行调试和安装,实施难度比较大。
③缺乏针对性。通过镜像流量的方法收集的全网的数据,由于信息量庞杂,很难提取有针对性的信息,数据的整理和筛选时间周期也比较长。
④监控范围不全。互联网的海量数据,需要监控的信息可能分布在互联网的任意角落,通过镜像流量的方式无法监控所有的信息源。
在网络空间中,舆情有自己的载体,主要为新闻、评论、发帖、回复等,这些内容在网络上发布和
[4]会留下各种踪迹,比如页面相互之间的超链接等等。根据这个特点,使用开源的搜索引擎传播时,
系统作为信息监控的基本手段,通过定制网页、论坛、博客等不同信息源的采集模型,将用户自定义带有敏感关键词的信息实时采集到数据库中,并通过知识库整理和分析的方法,实现网络舆论监控和分析系统。该系统对有舆情监控需求的部门和机构来说,低成本、易部署的网络舆情监控系统有广泛的市场需求。
1.2搜索引擎原理
搜索引擎是指根据一定的策略,,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎一般由搜索器、索
[5]引器、检索器和用户接口四个部分组成(图1),其各部分作用如下:
①搜索器。搜索引擎派出能够在网上发现新网页并抓取网页信息的程序,该程序通常称为网络蜘
[6]模仿用户通过浏览器访问网页的模式蛛(spider)或网络爬虫。网络蜘蛛从已知的网址(URL)出发,
抓取网页的全文信息,在该过程中,网络蜘蛛会自动分析、搜索并跟踪网页中的链接,通过超链接关系访问其他网页信息,把新发现的URL的网页信息抓取并存储至原始数据库。
②索引器。索引器将抓取回来的页面文件进行分解和分析,以表格的形式存入数据库,这个过程称之为索引(index)。在索引数据库中,网页文字内容以及关键词出现的位置、字体、颜色、加粗、斜体等相关信息都被相应记录。
③检索器。根据用户的查询请求,在索引库中检索文档,进行相关度评价,对检索结果排序,按照用户的查询需求反馈信息。
④用户接口。接收用户提交的查询条件,显示查询结果并提供个性化查询选项。
本文关键词:基于搜索引擎的网络舆情监控系统设计与实现,由笔耕文化传播整理发布。
本文编号:74729
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/74729.html