当前位置:主页 > 社科论文 > 社会学论文 >

基于用户社交关系的微博情感分类模型研究

发布时间:2020-10-26 17:54
   随着IT技术的飞速发展,特别是Twitter和新浪微博等社交网络平台的兴起和蓬勃发展,微博文本情感分析(Microblog Sentiment Analysis,MSA)已成为一项热门的研究课题。然而,由于微博文本普遍篇幅短小,信息量少、数据噪声大等特点,给传统思维下的针对纯内容的文本情感分析方法带来极大的挑战。事实上,在线社交网络节点间存在大量链接结构,用户的情感和观点常常不自觉地受到其他用户节点的影响。近期研究表明,微博文本情感分析不再局限于传统的基于纯内容的分析,考虑融合有效的社交信息将有助于MSA取得更优效果。而web2.0鼎盛时期的到来,使得社交用户之间交互更加频繁、社交关系更加复杂紧密、情感交流和情绪影响更为普遍。同时,根据同质性和影响力等社会学理论可知,存在相似关系和影响关系的社交用户往往会对于某些事物或事实有相似的观点。因此,本文提出基于用户相似性(User Similarity)和用户影响力(User Influence)社交关系的微博文本情感分类模型(MSA-USUI模型)。根据社交网路节点相似性度量方法以及微博用户信息特性,提出分别从用户节点的网络结构、用户基本信息和用户兴趣三个维度来综合度量微博用户相似性关系;根据在线社交网络节点间影响力分析和度量方法以及微博用户行为特性,提出分别从好友关系和用户间互动行为两个角度来综合度量微博用户间影响力关系。在基于微博文本内容建模基础上,本文利用基于相似性关系和影响关系的用户社交关系构建微博文本间情感关系,并用“博文-博文”间情感关系进一步优化训练微博文本情感分类模型;对可能出现的过拟合问题进行处理,最终给出模型求解算法。最后,本研究通过python爬虫获取两个新浪微博数据集对模型进行实验验证,实验结果表明:MSA-USUI模型具有比支持向量机和目前先进的监督模型SANT有更好的微博情感分类效果。此外,实验结果还证明融合用户间影响社交关系信息带来的微博情感分类正确率和F1值提高大于融合用户间相似性关系信息,但当同时合理融合用户相似性关系信息和用户影响关系信息时,MSA-USUI模型的分类效果达到最优。
【学位单位】:南京航空航天大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:C912.3
【部分图文】:

示意图,情感,情感分析,文本


”、“于”、“也”、“会”之类的虚词。因此,在分词处理之后,需进一步通过表来去除这些无用词,以达到降低特征空间维度,减少分类运算复杂度的目的。用词表最早是由语言学专家通过其语言学知识主观判断得到的,但目前也有通过方法自动构建停用词表,二者方法均有利弊。尽管目前已有较为成熟的通用中文停用若直接应用在特定领域上,可能会给后续自然语言分析带来负面影响。而,在实际处理的过程中,研究者们通常采取在已有的中文停用词表的基础上,进充和完善。目前,已存在不少成熟的中文停用词词库,如“哈工大停用词词库”、词词库”。 文本情感分类的方法.1 基于情感词典的文本情感计算于情感词典的情感计算是:利用己有语义词典资源构建领域词典,再通过比对情包含的正向情感词、负向情感词,标记正、负整数值作为情感值,同时也要考虑一性规则、句法结构对情感判断的影响,如否定句、递进句、转折句等。该方法需要情感词典。

示意图,情感分析,文本,机器学习


图 2.2 基于机器学习的文本情感分析的流程示意图(1) 情感特征的选择。在特征选择的过程中,计算信息增益值是度量特征项重要程度的方法之一,它反映了特征项在文档中出现与否对文本情感分类的影响。如果某个特征项 T 的信息增益值越大,说明它对文本分类的贡献就越大,就应选择此特征项 T 作为文本分类的特征。信息增益的计算公式如下(2.2-2.4):IG(T) = H(C) H(C T) (2.2H(C) = (C ) (C ) (2.3H(C T) = (T) (C T) (C T) (T ) (C T ) (C T ) (2.4其中, C 表示文本类别集合,n 表示类别的个数,C 表示一个文本类别,T 表示文本中的一个特征项, (C )表示类别为C 的文本概率, (T)表示使用了特征项 T 的文本概率, (T )表示没有使用特征项 T 的文本概率, (C T)和 (C T )分别表示使用特征项 T 前后的条件下文本属于类别C 的概率。(2) 情感特征的权重量化。利用特征选择的方法选择对文本情感分类影响大的特征后,需

向量空间模型,构造过程


TF(T)=该文档中所有特征项出现的数目IDF(T)= log (文本集合中所有文档的总数包含特征项 T 的文档的数目+ρ) TF-IDF(T)= TF(T)× IDF(T) 中,为了避免分母为了 0,所以增加参数 , 值为一经验所得,通常取 0.01、0.1 或者(3) 情感特征的结构表示模型。不同文本分析任务可采用不同文本表示模型,目前感分析任务中常用的是向量空间(Vector Space Model,VSM)模型,又称“词袋”(rds)模型,是在 1975 年由 Salton、Wong 和 Yang 等人提出的,其主要的思想是:将每本(document)表示为向量空间的一个向量(Vector),向量空间中每一个维度对应一个不项/词条(term),而每一个维的数值就是对应特征项在文本中的权重(Weight)。即,给定本集合 D ={ , , , },文本 di可以表示为: di= (t1, w1),(t , w2), ,(tm, wm) j=1,2, ,m 为文档 di中的特征项,w 为 的权重,因而也作, di= wj1, wj , , w下图 2.3 所示。若该特征项出现在文档中,则权重值设为 1,如若不出现,权重值设为空间模型,表示方法简单,易于处理。
【参考文献】

相关期刊论文 前10条

1 唐晓波;梁梦婕;;融合结构与内容特征的微博沉默用户兴趣模型构建研究[J];情报学报;2015年11期

2 吴树芳;徐建民;武晓波;;融合用户标签和关系的微博用户相似性度量[J];情报杂志;2014年12期

3 田秀霞;宋羊力;朱涛;王晓玲;;基于用户相似度度量的有效社区Leader选举方法[J];燕山大学学报;2014年06期

4 齐超;陈鸿昶;于洪涛;;基于用户行为综合分析的微博用户影响力评价方法[J];计算机应用研究;2014年07期

5 徐志明;李栋;刘挺;李生;王刚;袁树仑;;微博用户的相似性度量及其应用[J];计算机学报;2014年01期

6 叶璐;;微博中的负面情绪传播分析[J];今传媒;2012年02期

7 谢丽星;周明;孙茂松;;基于层次结构的多策略中文微博情感分析和特征抽取[J];中文信息学报;2012年01期

8 宋晓雷;王素格;李红霞;李德玉;;基于概率潜在语义分析的词汇情感倾向判别[J];中文信息学报;2011年02期

9 赵妍妍;秦兵;刘挺;;文本情感分析[J];软件学报;2010年08期

10 陶富民;高军;王腾蛟;周凯;;面向话题的新闻评论的情感特征选取[J];中文信息学报;2010年03期


相关博士学位论文 前1条

1 余永红;融合多源信息的推荐算法研究[D];南京大学;2017年


相关硕士学位论文 前5条

1 沈磊;基于规则与机器学习方法的中文微博情感分析研究[D];安徽大学;2015年

2 康海潇;基于标签的微博用户兴趣发现算法研究及应用[D];浙江大学;2013年

3 陈晓东;基于情感词典的中文微博情感倾向分析研究[D];华中科技大学;2012年

4 邓夏玮;基于社交网络的用户行为研究[D];北京交通大学;2012年

5 王宇;基于搜索历史的用户兴趣建模[D];复旦大学;2011年



本文编号:2857319

资料下载
论文发表

本文链接:https://www.wllwen.com/shekelunwen/shgj/2857319.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户980a9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com