基于Spark的网络舆情分析方法的研究与应用
发布时间:2021-10-15 03:02
随着互联网技术的飞速发展,人们日常生活中使用网络的时刻也越来越多,越来越多的人习惯于在网上针对于社会热点、时事新闻发表自己的看法,而互联网作为这样一个自由的虚拟平台,并不意味着它不需要任何管理,及时发现话题热点,遏制不实谣言的传播,引导舆论向正确的方向发展,保证一个良好的互联网环境,是互联网时代政府相关工作人员的新职责。然而面对如此海量的文本数据,如何从中提炼出话题,及时地为之后的管理、引导工作指明方向,正是该项研究工作的第一大难点。本文结合了自然语言处理、机器学习、大数据处理这几种相关技术,致力于解决这一难点问题。本文针对网络舆情分析中的话题检测部分,提出了一种基于多特征融合的Single-Pass-SOM组合模型的话题检测方法。该话题检测方法分为了两部分,一部分为文本表示,一部分为话题聚类。针对文本表示部分,本文提出了基于时间衰减因子的LDA&&word2vec文本表示模型,利用LDA模型提取主题特征,利用word2vec模型提取语义特征,将文本的这两种特征融合在一起,并设计了时间衰减因子,将时间特征也加入其中,从而获取更加全面的文本信息,提高话题检测的精度。针对话...
【文章来源】:中国科学院大学(中国科学院沈阳计算技术研究所)辽宁省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
网民规模和互联网普及率
第2章相关技术研究9第2章相关技术研究2.1文本分析概述文本分析,作为自然语言处理的分支之一,一直是机器学习研究的一大热门领域,它是将非结构化的文字信息转换为结构化的计算机可以理解和处理的信息,从而可以使用分类、聚类等机器学习算法,对结构化的文本信息进行进一步的处理,从而从文本中获得更多的、更重要的信息,这样,显著减少了文本处理的时间,加快了信息获取的速度。文本分析技术现在被广泛应用在舆情监测、新闻推荐等领域,为人们提供了更多、更便利的应用。本文主要研究的是网络舆情分析中的话题检测方法,旨在提高话题检测的准确率和召回率,以方便相关人员更容易抓住舆论中的话题热点,及时引导热点话题的发展方向。而在探索热点话题检测方法的过程中,文本分析技术则是必不可少的,其基本流程如图2.1所示:图2.1文本分析流程Figure2.1theFlowofTextAnalysis从上图中可以看出,文本分析主要包括以下五大步骤:(1)文本预处理:文本预处理是对文本数据进行粗略的处理操作,过滤掉一些非文本的垃圾信息,对其进行分词,并去除无任何语义信息的词语,如虚词、助词等。
基于Spark的网络舆情分析方法的研究与应用16的算子封装等级更高,更容易满足用户的实际需求。2.4.3Spark生态系统Spark生态系统也被称为伯克利数据分析栈(BDAS),其核心框架是Spark。它在Sparkcore的基础上,涵盖了SparkSQL、SparkStreaming、SparkMLlib、GraphX四大基本组件,并且,拥有YARN、Mesos、Standalone等调度框架。Spark生态系统结构如图2.2所示:图2.2Spark生态系统Figure2.2theEcosystemofSpark(1)SparkcoreSparkcore是Spark框架的通用基础执行引擎,它采用内存计算的方式优化了迭代计算,加快了数据计算的能力,而其他的所有功能,包括内存管理、任务调度、容错机制以及文件存储等,都是建立在Sparkcore之上。并且Sparkcore不仅支持内部的调度框架,而且还支持外部的调度框架。(2)SparkSQL(Armbrust等,2015)SparkSQL是一种支持结构化数据和半结构化数据的交互式SQL数据查询工具。用户可以通过SparkSQL,使用SQL语句或者Hive版本的HQL语句来查询数据。SparkSQL支持多种类型的数据源,包括json、Hive表等。而且SparkSQL不仅为用户提供了一个SQL接口,还支持用户将SQL语句写入到应用程序中,更为方便快捷。
本文编号:3437306
【文章来源】:中国科学院大学(中国科学院沈阳计算技术研究所)辽宁省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
网民规模和互联网普及率
第2章相关技术研究9第2章相关技术研究2.1文本分析概述文本分析,作为自然语言处理的分支之一,一直是机器学习研究的一大热门领域,它是将非结构化的文字信息转换为结构化的计算机可以理解和处理的信息,从而可以使用分类、聚类等机器学习算法,对结构化的文本信息进行进一步的处理,从而从文本中获得更多的、更重要的信息,这样,显著减少了文本处理的时间,加快了信息获取的速度。文本分析技术现在被广泛应用在舆情监测、新闻推荐等领域,为人们提供了更多、更便利的应用。本文主要研究的是网络舆情分析中的话题检测方法,旨在提高话题检测的准确率和召回率,以方便相关人员更容易抓住舆论中的话题热点,及时引导热点话题的发展方向。而在探索热点话题检测方法的过程中,文本分析技术则是必不可少的,其基本流程如图2.1所示:图2.1文本分析流程Figure2.1theFlowofTextAnalysis从上图中可以看出,文本分析主要包括以下五大步骤:(1)文本预处理:文本预处理是对文本数据进行粗略的处理操作,过滤掉一些非文本的垃圾信息,对其进行分词,并去除无任何语义信息的词语,如虚词、助词等。
基于Spark的网络舆情分析方法的研究与应用16的算子封装等级更高,更容易满足用户的实际需求。2.4.3Spark生态系统Spark生态系统也被称为伯克利数据分析栈(BDAS),其核心框架是Spark。它在Sparkcore的基础上,涵盖了SparkSQL、SparkStreaming、SparkMLlib、GraphX四大基本组件,并且,拥有YARN、Mesos、Standalone等调度框架。Spark生态系统结构如图2.2所示:图2.2Spark生态系统Figure2.2theEcosystemofSpark(1)SparkcoreSparkcore是Spark框架的通用基础执行引擎,它采用内存计算的方式优化了迭代计算,加快了数据计算的能力,而其他的所有功能,包括内存管理、任务调度、容错机制以及文件存储等,都是建立在Sparkcore之上。并且Sparkcore不仅支持内部的调度框架,而且还支持外部的调度框架。(2)SparkSQL(Armbrust等,2015)SparkSQL是一种支持结构化数据和半结构化数据的交互式SQL数据查询工具。用户可以通过SparkSQL,使用SQL语句或者Hive版本的HQL语句来查询数据。SparkSQL支持多种类型的数据源,包括json、Hive表等。而且SparkSQL不仅为用户提供了一个SQL接口,还支持用户将SQL语句写入到应用程序中,更为方便快捷。
本文编号:3437306
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3437306.html