基于深度学习的网络舆情分析方法研究
发布时间:2021-08-18 14:40
随着科技不断的发展,互联网对人们日常生活的影响也在日益增强,人们越来越倾向于在社交网络上发布自己对一些事物的看法和意见。舆情分析可以快速判断国民对重大事件的情感倾向,客观表达社会舆论导向,有利于特定主管部门和政府机构对舆情信息进行及时准确的管理和引导,维护社会的和谐安全。舆情信息大多来自于短文本评论信息,其文本脱离书面语言,结构变得更加简洁,缺乏规范性,常常给文本特征提取造成一定的难度。传统的情感分析方法往往依靠情感词典和特征提取,随着互联网文化和数据量不断的更新和迭代,需要大量的人工对情感词典进行更新,否则会造成语义特征丢失,分类不准确。本文在分析研究Attention机制和深度学习相关技术的基础上,提出一种HAN-CLSTM模型对文本的深层次语义特征进行挖掘,能够准确判断其情感倾向。本文的主要研究工作包括如下几部分:(1)根据CNN和LSTM在进行文本处理时的特点,CNN能够更好的提取文本局部特征,LSTM可以保留文本历史信息,有效提取序列的全局特征,为了使提取到的特征语义信息更加全面,将二者结合形成CLSTM模型。通过采用多组模型参数进行多次实验对比,得到具有最优参数的CLSTM...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图2.1基于情感词典的文本情感分类流程??Fig.?2.1?Emotion?classification?process?of?text?based?on?emotion?dictionary??
?大连海事大学专业学位硕士学位论文?????.-BbW,?|预处理:?|特征提取: ̄????开始?一>?—?*'<*,!丨.文本分一>?—?特征分类?—》分类结果?一^结*????丨据集?卜|?征?丨?|?|????图2.2基于机器学习的文本情感分类流程??Fig.?2.2?Text?emotion?classification?process?based?on?machine?learning??2.1.1文本预处理??由于网上爬取的文本数据有许多无意义的html标签、无意义的特殊词语、符号、??表情、URL等。通过文本预处理使文本更加规范,去除一些噪声数据,将对文本分类有??用的词语进行保留。文本预处理的处理过程如图2.3所示。?? ̄^ ̄??丄??读取文本数掘??标^^否??|统-^准编??码格式??'?^__??提取文本字段??数据淸洗??分词/去停用词/??发现新词??结束??图2.3文本预处理流程??Fig.?2.3?Text?preprocessing?process??由于计算机程序处理文本时需要统一的文本编码格式。如果文本数据集釆用的编码??格式不统一,则需要转化成统一的编码格式。常见的文本标准化编码格式有GBK编码、??GB18030编码、Unicode编码等。对文本进行统一标准编码格式后,再对文本进行字段??的解析提龋提取文本字段之后,需要对文本数据集进行“数据清洗”,对整个文本去??掉一些无意义的符号、错误数据、URL等噪声特征。??7??
?大连海事大学专业学位硕士学位论文???程中避免产生过拟合现象%,即在特定训练文本数据集上的分类性能十分显著,但是在??训练数据集以外的未知数据集的性能十分差。??2.1.3特征分类??特征分类是对已经提取的文本特征按照一定的规则划分类别,最终得到预期的分类??结果,尽量减少分类误差。例如一组已知的集合M={mumr__mn^照一定的规则映射到??一组预先给定的集合Dldudr-dn}?(n为分类总数),这种映射规则往往是建立一个分??类模型,如图2.4所示。???>?分类模型??^???????????^?I?.??图2.4特征分类映射示意图??Fig.?2.4?Map?of?feature?classification??在机器学习中特征分类模型一般分为有监督模型、无监督模型。典型的机器学习模??型如图2.5所示。??机器学习校???W监督学>J模S?无ffi督学习校ffl??决裳?I丨"丨I?H?i?i??w造I树-篇?n?%??图2.5典型机器学习模型??Fig.?2.5?Typical?machine?learning?model??9??
【参考文献】:
期刊论文
[1]在重大突发公共事件中传统媒体如何应对网络舆情——以湖北广电集团抗击新冠肺炎疫情宣传为例[J]. 邹静. 当代电视. 2020(04)
[2]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖. 网信军民融合. 2019(09)
[3]基于多部情感词典和规则集的中文微博情感分析研究[J]. 吴杰胜,陆奎. 计算机应用与软件. 2019(09)
[4]基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型[J]. 王根生,黄学坚. 小型微型计算机系统. 2019(05)
[5]基于ANP—灰色模糊的社交网络舆情风险预警研究——以“重庆公交坠江事件”为例[J]. 陈培友,侯甜甜. 情报科学. 2019(05)
[6]文本情感分析方法研究综述[J]. 洪巍,李敏. 计算机工程与科学. 2019(04)
[7]基于GloVe词向量的“技术——应用”发现研究[J]. 吉久明,施陈炜,李楠,康健. 现代情报. 2019(04)
[8]中文分词技术综述[J]. 冯俐. 现代计算机(专业版). 2018(34)
[9]基于熵权法的网络舆情预警模糊综合评价模型研究[J]. 武慧娟,张海涛,王尽晖,孙鸿飞,李泽中. 情报科学. 2018(07)
[10]文本情感分析综述[J]. 刘爽,赵景秀,杨红亚,徐冠华. 软件导刊. 2018(06)
硕士论文
[1]基于深度学习与自注意力机制的情感分类方法研究[D]. 祝元勃.西安理工大学 2019
[2]基于语义相似度的中文文本分类研究[D]. 李晓军.西安电子科技大学 2017
[3]基于词向量的标签语义推荐算法研究[D]. 黄聪.广东工业大学 2015
[4]基于WEB数据挖掘技术的公安舆情监控系统的设计与实现[D]. 吴旭东.上海交通大学 2015
本文编号:3350077
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图2.1基于情感词典的文本情感分类流程??Fig.?2.1?Emotion?classification?process?of?text?based?on?emotion?dictionary??
?大连海事大学专业学位硕士学位论文?????.-BbW,?|预处理:?|特征提取: ̄????开始?一>?—?*'<*,!丨.文本分一>?—?特征分类?—》分类结果?一^结*????丨据集?卜|?征?丨?|?|????图2.2基于机器学习的文本情感分类流程??Fig.?2.2?Text?emotion?classification?process?based?on?machine?learning??2.1.1文本预处理??由于网上爬取的文本数据有许多无意义的html标签、无意义的特殊词语、符号、??表情、URL等。通过文本预处理使文本更加规范,去除一些噪声数据,将对文本分类有??用的词语进行保留。文本预处理的处理过程如图2.3所示。?? ̄^ ̄??丄??读取文本数掘??标^^否??|统-^准编??码格式??'?^__??提取文本字段??数据淸洗??分词/去停用词/??发现新词??结束??图2.3文本预处理流程??Fig.?2.3?Text?preprocessing?process??由于计算机程序处理文本时需要统一的文本编码格式。如果文本数据集釆用的编码??格式不统一,则需要转化成统一的编码格式。常见的文本标准化编码格式有GBK编码、??GB18030编码、Unicode编码等。对文本进行统一标准编码格式后,再对文本进行字段??的解析提龋提取文本字段之后,需要对文本数据集进行“数据清洗”,对整个文本去??掉一些无意义的符号、错误数据、URL等噪声特征。??7??
?大连海事大学专业学位硕士学位论文???程中避免产生过拟合现象%,即在特定训练文本数据集上的分类性能十分显著,但是在??训练数据集以外的未知数据集的性能十分差。??2.1.3特征分类??特征分类是对已经提取的文本特征按照一定的规则划分类别,最终得到预期的分类??结果,尽量减少分类误差。例如一组已知的集合M={mumr__mn^照一定的规则映射到??一组预先给定的集合Dldudr-dn}?(n为分类总数),这种映射规则往往是建立一个分??类模型,如图2.4所示。???>?分类模型??^???????????^?I?.??图2.4特征分类映射示意图??Fig.?2.4?Map?of?feature?classification??在机器学习中特征分类模型一般分为有监督模型、无监督模型。典型的机器学习模??型如图2.5所示。??机器学习校???W监督学>J模S?无ffi督学习校ffl??决裳?I丨"丨I?H?i?i??w造I树-篇?n?%??图2.5典型机器学习模型??Fig.?2.5?Typical?machine?learning?model??9??
【参考文献】:
期刊论文
[1]在重大突发公共事件中传统媒体如何应对网络舆情——以湖北广电集团抗击新冠肺炎疫情宣传为例[J]. 邹静. 当代电视. 2020(04)
[2]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖. 网信军民融合. 2019(09)
[3]基于多部情感词典和规则集的中文微博情感分析研究[J]. 吴杰胜,陆奎. 计算机应用与软件. 2019(09)
[4]基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型[J]. 王根生,黄学坚. 小型微型计算机系统. 2019(05)
[5]基于ANP—灰色模糊的社交网络舆情风险预警研究——以“重庆公交坠江事件”为例[J]. 陈培友,侯甜甜. 情报科学. 2019(05)
[6]文本情感分析方法研究综述[J]. 洪巍,李敏. 计算机工程与科学. 2019(04)
[7]基于GloVe词向量的“技术——应用”发现研究[J]. 吉久明,施陈炜,李楠,康健. 现代情报. 2019(04)
[8]中文分词技术综述[J]. 冯俐. 现代计算机(专业版). 2018(34)
[9]基于熵权法的网络舆情预警模糊综合评价模型研究[J]. 武慧娟,张海涛,王尽晖,孙鸿飞,李泽中. 情报科学. 2018(07)
[10]文本情感分析综述[J]. 刘爽,赵景秀,杨红亚,徐冠华. 软件导刊. 2018(06)
硕士论文
[1]基于深度学习与自注意力机制的情感分类方法研究[D]. 祝元勃.西安理工大学 2019
[2]基于语义相似度的中文文本分类研究[D]. 李晓军.西安电子科技大学 2017
[3]基于词向量的标签语义推荐算法研究[D]. 黄聪.广东工业大学 2015
[4]基于WEB数据挖掘技术的公安舆情监控系统的设计与实现[D]. 吴旭东.上海交通大学 2015
本文编号:3350077
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3350077.html