面向社交网络的文本倾向性比对方法的研究与实现
发布时间:2020-04-10 00:16
【摘要】:随着移动网络的普及,以微博为代表的社交网络逐渐成为人们获取信息、表达观点的重要渠道。社交网络中的文本篇幅短,数据量大,有着重要的数据挖掘价值,是舆情分析的重要数据源。文本倾向性比对,即通过比对已知倾向性的文本,确定待分析文本的倾向性,是文本倾向性分析的一种手段。文本倾向性分析是自然语言处理和舆情分析等领域的研究热点,以往的研究大多忽视了文本上下文语境包含的潜在情感因素,或者使用神经网络、深度学习等机制,原理复杂,不适于处理微博等短文本数据。针对这些问题,本文提出了一种文本倾向性比对方法,并通过实验验证了其有效性,最后结合Hadoop分布式计算平台进行了系统的设计和实现。本文的主要工作有:1.针对微博等社交网络篇幅短、数据量大的特点,提出了一种文本倾向性比对方法,将待分析文本与代表正向、负向及中性的标准文本进行语义相似度比对,将其分为更相似的一类。此外,还提出了标准文本的选用原则。2.在语义相似度计算方面,提出了融合语义相似度概念及其计算方法。计算相关子空间中的文本相似度以及情感子空间中的文本情感相似度,并将二者结合起来,既利用了情感词和观点词中的显性情感因素,又利用了文本上下文语境中隐含的情感因素,使该语义相似度更适于倾向性分析。3.结合Hadoop分布式计算平台,对使用融合语义相似度的文本倾向性比对方法做了系统实现。由数据采集层通过微博API获取数据,并将其存储在本地数据库。对文本进行并行的预处理后,结合本文提出的倾向性比对方法,并行地分析出文本倾向,提高了数据处理的效率。结果展示层调取倾向性分析结果,并对其进行展示。
【图文】:
图2.邋1文本倾向性分析处理流程逡逑Figure邋2.1邋Processing邋of邋the邋text邋orientation邋analysis逡逑
文本的生成模型
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP393.092
本文编号:2621469
【图文】:
图2.邋1文本倾向性分析处理流程逡逑Figure邋2.1邋Processing邋of邋the邋text邋orientation邋analysis逡逑
文本的生成模型
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP393.092
【参考文献】
相关期刊论文 前6条
1 梁喜涛;顾磊;;中文分词与词性标注研究[J];计算机技术与发展;2015年02期
2 李欣;王素格;李德玉;;面向文本情感聚类的维度判别方法[J];计算机工程与应用;2015年07期
3 厉小军;戴霖;施寒潇;黄琦;;文本倾向性分析综述[J];浙江大学学报(工学版);2011年07期
4 宋鸿彦;刘军;姚天f ;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[J];中文信息学报;2009年02期
5 徐琳宏;林鸿飞;赵晶;;情感语料库的构建和分析[J];中文信息学报;2008年01期
6 徐琳宏;林鸿飞;潘宇;任惠;陈建美;;情感词汇本体的构造[J];情报学报;2008年02期
相关硕士学位论文 前4条
1 刘超然;在线新闻网民评论情感倾向性分析及可视化研究[D];哈尔滨工业大学;2018年
2 冯月华;基于Hadoop的分布式中文微博情感分析研究与实现[D];兰州大学;2017年
3 张源悍;基于Hadoop平台的高可用性云存储系统的设计与实现[D];哈尔滨工业大学;2014年
4 陈飞宏;基于向量空间模型的中文文本相似度算法研究[D];电子科技大学;2011年
,本文编号:2621469
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2621469.html