基于多特征融合的微博情感分析研究
发布时间:2021-07-27 01:39
随着网络时代的到来和科技的进步,以微博为代表的社交网络平台逐渐成为人们分享和获取信息的主要途径。用户发布在社交网络平台的这些信息大多带有明显的情感色彩。通过对这些带有主观性情感色彩的信息进行情感分析,有助于推动舆情分析、个性化推荐和突发事件预防等领域的研究,因此微博情感分析具有重要的应用价值。本文重点围绕微博中的图文进行情感分析研究,主要研究内容有:(1)现有的微博情感分析方法较少注意到用户情感表达的差异和微博内容中除文字之外的特征,导致微博的情感分析效果难尽人意,为此,提出了融合内容特征与用户特征的文本情感分析方法。构建文本情感分类模型TSCCUF,将对情感具有很好指示作用的内容特征、用户特征与微博句子进行融合。实验结果表明,内容特征与用户特征的融合,增强了模型捕捉情感语义的能力,相较于未进行特征融合的BLSTM、MCNN等模型,TSCCUF模型各项性能都有较大的提高。(2)针对使用CNN构建的图片情感分类模型容易出现过拟合或收敛速度慢的问题,提出了基于参数迁移与微调的图片情感分类模型TFCNN;针对单模态文本或图片的情感分析方法准确率不高的问题,设计了图文融合的微博情感分析方法。在...
【文章来源】:桂林电子科技大学广西壮族自治区
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
新浪微博示例
图 2-1 文本情感分类流程理数据包含着大量的噪声,这些噪声数据会对文本情感分析要对这些文本数据进行预处理操作,包括去噪、分词、较常用的文本表示方法有:one-hot、TF-IDF、词向量等ot码是最基本的文本表示方法,可以将一个语句转换为一首先对词库中的每个词语进行编号,然后将句子中含有的 1,其他位置均为 0,向量的长度即为词表的长度。例如中国”,“我爱爸爸妈妈”,“我爱学习”。首先获取语号:1 我;2 爱;3 中国;4 爸爸;5 妈妈; 6 学习特征向量为:我爱中国 [1,1,1,0,0,0]
公式 2-1 计算得到的基本都是“的”、“是”等要用到逆文档频率(Inverse Document Frequency停用词的权值参数很小甚至为 0,通过公式 2-2,t 为包含该词的文档数。得到 TF 和 IDF 之numnTF t1TIDF logTF IDF TF*IDF生成词向量的模型 CBOW 和 Skip-gram 模型。如图 2-2 所示,从左到右分别为输入层、投影某个目标词前后 n 个词语的词向量,输出为该后的各 n 个词预测tw 的概率。
【参考文献】:
期刊论文
[1]一种融合性格线索的微博情感分类[J]. 贾莉,江涛,马宁,孟家豪. 云南大学学报(自然科学版). 2020(05)
本文编号:3304802
【文章来源】:桂林电子科技大学广西壮族自治区
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
新浪微博示例
图 2-1 文本情感分类流程理数据包含着大量的噪声,这些噪声数据会对文本情感分析要对这些文本数据进行预处理操作,包括去噪、分词、较常用的文本表示方法有:one-hot、TF-IDF、词向量等ot码是最基本的文本表示方法,可以将一个语句转换为一首先对词库中的每个词语进行编号,然后将句子中含有的 1,其他位置均为 0,向量的长度即为词表的长度。例如中国”,“我爱爸爸妈妈”,“我爱学习”。首先获取语号:1 我;2 爱;3 中国;4 爸爸;5 妈妈; 6 学习特征向量为:我爱中国 [1,1,1,0,0,0]
公式 2-1 计算得到的基本都是“的”、“是”等要用到逆文档频率(Inverse Document Frequency停用词的权值参数很小甚至为 0,通过公式 2-2,t 为包含该词的文档数。得到 TF 和 IDF 之numnTF t1TIDF logTF IDF TF*IDF生成词向量的模型 CBOW 和 Skip-gram 模型。如图 2-2 所示,从左到右分别为输入层、投影某个目标词前后 n 个词语的词向量,输出为该后的各 n 个词预测tw 的概率。
【参考文献】:
期刊论文
[1]一种融合性格线索的微博情感分类[J]. 贾莉,江涛,马宁,孟家豪. 云南大学学报(自然科学版). 2020(05)
本文编号:3304802
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3304802.html