基于神经网络的中文文本情感分类及其在舆情分析中的应用
发布时间:2024-12-25 23:55
近年来伴随互联网技术的飞速发展,尤其是移动互联网技术的发展,网民可以随时随地通过丰富且便捷的途径发表自己对时政热点事件的观点看法。同时,互联网上的文本数据也呈现了井喷式地增长,面对如此庞大的文本数据,如何通过挖掘网民对热点事件的情感态度并且提取有价值的关键信息,进而对舆情进行正确的引导是目前亟待解决的问题。对文本数据进行情感分类并从不同的情感类别中挖掘关键信息能够有效地解决这一问题。因此,文本情感分类技术和关键信息提取技术被广泛地应用在电子商务、电子政务、信息管理等领域。目前,较为成熟的文本情感分类技术主要针对的是英文文本,针对中文文本情感分类的技术相对不够成熟。相较于英文文本,中文文本在语法结构、语义内容等方面具有较大的差异,所以不能直接将针对英文文本的情感分类技术直接应用于中文文本。因此,本文结合中文文本特征利用神经网络的方法对中文文本进行情感分类研究。当前,研究学者主要将文本情感分为正向和负向两大类,然而这种分类较为粗略,不能分析文本中包含更深层的情感倾向,因此,本文对正向和负向情感大类进行了更深层的情感小类划分,分别构建了大类情感分类模型以及小类情感分类模型。另一方面,研究学者对...
【文章页数】:92 页
【学位级别】:硕士
【部分图文】:
本文编号:4020201
【文章页数】:92 页
【学位级别】:硕士
【部分图文】:
图3.9各类情感文本数量占比可以发现,数据集中不同情感类型的文本比例差异很大
据集共包含了8类情感,每类情感对应的文本数量在所有数据中所占比例如图3.9所示。图3.9各类情感文本数量占比可以发现,数据集中不同情感类型的文本比例差异很大。其中,无明显情感极性的文本占了全部文本数量的67.93%,而“恐惧”这个类别只占了全部文本数量中的0.6%。当....
图3.10网络训练过程损失图
进一步,在接下来的实验中,本文将网络末层全连接层的L2正则化系数设置为0.2。图3.10网络训练过程损失图44
图3.11交叉熵损失和多级情感分类损失的混淆矩阵
这样会降低情感分类的准确率。同时,通过引入多级情感分类损失,使得正向和负向之间区分度更高,也使得最终的情感分类结果更加准确。图3.11交叉熵损失和多级情感分类损失的混淆矩阵3.4本章小结文本中包含的情感信息能够通过不同层次的内容进行传递,文本中的词语、短语和句子都能够从不同层....
图5.2微博爬虫界面
本文从新浪微博抓取了2017年上半年关于“一带一路”的微博,同时作为接下来分析的语料库。图5.2微博爬虫界面5.2实验设计本节通过对微博平台上“一带一路”的相关内容进行分析,从而验证本文方法的效果。“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称,是中....
本文编号:4020201
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/4020201.html