当前位置:主页 > 科技论文 > 软件论文 >

基于聚类的网络舆情监视系统设计与实现

发布时间:2021-08-04 03:51
  随着科技高速发展,网络逐渐变成了国内最大的信息交流平台,其中蕴含了大量的舆论信息,而对于舆论信息进行监控,保障我国良好的网络环境也逐渐成为网络管理工作的重要内容之一。在此背景下,本论文引入数据挖掘的技术实现了网络舆情分析,其中包括文本内容的主题分析、热点话题的聚类以及话题热度的预警三个重要功能。通过本文的研究实现了一套适用于我国网络监管的网络舆情监视系统。主要内容包括:首先,结合网络管理工作对于网络舆情监视的业务流程开展了需求分析,将网络舆情监视管理归纳为信息搜集、舆情分析、舆情编报以及舆情监视告警四个方面的功能,并根据系统应用中的角色分类,分别绘制了对应的业务流程图以及功能用例图。其次,本文根据功能需求分析进行了系统的设计。其中信息搜集功能模块引入网络爬虫技术对信息进行搜集;舆情分析功能模块中引入了K-means聚类分析算法,将搜集到的文本信息转化为关键词的赋权特征向量,通过聚类分析的方法获取对应的聚类中心,即热点话题的向量表示,通过计算和统计话题的热度以及扩散速度实现舆情的热度和扩散速度预警。此外对系统的后台数据库进行了概念设计和逻辑结构设计,绘制了对应的E-R图以及具体的数据库表... 

【文章来源】:河北科技大学河北省

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

基于聚类的网络舆情监视系统设计与实现


网络爬虫抓取网页流程

聚类分析,特征向量,舆情,短语


而随着训练样本的不断加入和丰富则可以逐步分析出所有文章、话题的主题类情况,从而将所有的文档或文章按照主题进行聚类。下面以文档类型分类为例展示对文档的预处理方法步骤如下:首先,将文档中主体不明确的情况作为无效情况进行剔除,筛选留下的有效档信息。之后明确分类的特征向量,将词汇、短语等的出现频率作为特征向量进统计,是比较常见且有效的方式之一,选择出现频率高的词汇、短语等设为该类档的特征向量,向量空间的维度就可以确定下来,如三位特征向量[C,Java,Pytho其次,使用 TF-IDF 公式对文档中出现的不同词汇、短语出现的特异性进行计并且为对应的特征向量进行特定的赋值,使用这种特异性度量的方法来进行特征量的度量。经过 TF-IDF 公式计算后可以用得到的具有不同数值的特征向量来表示一个文档,例如[(网络,0.25),(舆情,0.30),(网页爬虫,0.65)],其中“网络”“舆情”、“网页爬虫”都是度量的维度,而后边的 0.25、0.30、0.65 则是对应的量维度的权重系数。将搜索到的文档进行特征向量的度量后,每一个度量后的文在特定的特征向量空间下都可以得到明确的表示。上例中的[(网络,0.25),(舆情

舆情,业务流程


第 3 章 网络舆情监视系统的需求分析3.1 网络舆情监视系统的业务流程本系统就是基于特定的页面完成预处理的操作,然后将特征词提取出来,为后期主题及舆情主题剖析打下基础。借助预处理的方式,能够把文本的主题提取出来,然后有效分析详细的事件内容,之后就可以对话题的具体走向进行有效跟踪,如果主题消亡或是已经达到了一定标准,就能够将结果生成,然后向用户展示。详细过程如图 3-1 所示。


本文编号:3320946

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3320946.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户96ab1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com