基于用户社交关系的微博情感分类模型研究
【学位单位】:南京航空航天大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:C912.3
【部分图文】:
”、“于”、“也”、“会”之类的虚词。因此,在分词处理之后,需进一步通过表来去除这些无用词,以达到降低特征空间维度,减少分类运算复杂度的目的。用词表最早是由语言学专家通过其语言学知识主观判断得到的,但目前也有通过方法自动构建停用词表,二者方法均有利弊。尽管目前已有较为成熟的通用中文停用若直接应用在特定领域上,可能会给后续自然语言分析带来负面影响。而,在实际处理的过程中,研究者们通常采取在已有的中文停用词表的基础上,进充和完善。目前,已存在不少成熟的中文停用词词库,如“哈工大停用词词库”、词词库”。 文本情感分类的方法.1 基于情感词典的文本情感计算于情感词典的情感计算是:利用己有语义词典资源构建领域词典,再通过比对情包含的正向情感词、负向情感词,标记正、负整数值作为情感值,同时也要考虑一性规则、句法结构对情感判断的影响,如否定句、递进句、转折句等。该方法需要情感词典。
图 2.2 基于机器学习的文本情感分析的流程示意图(1) 情感特征的选择。在特征选择的过程中,计算信息增益值是度量特征项重要程度的方法之一,它反映了特征项在文档中出现与否对文本情感分类的影响。如果某个特征项 T 的信息增益值越大,说明它对文本分类的贡献就越大,就应选择此特征项 T 作为文本分类的特征。信息增益的计算公式如下(2.2-2.4):IG(T) = H(C) H(C T) (2.2H(C) = (C ) (C ) (2.3H(C T) = (T) (C T) (C T) (T ) (C T ) (C T ) (2.4其中, C 表示文本类别集合,n 表示类别的个数,C 表示一个文本类别,T 表示文本中的一个特征项, (C )表示类别为C 的文本概率, (T)表示使用了特征项 T 的文本概率, (T )表示没有使用特征项 T 的文本概率, (C T)和 (C T )分别表示使用特征项 T 前后的条件下文本属于类别C 的概率。(2) 情感特征的权重量化。利用特征选择的方法选择对文本情感分类影响大的特征后,需
TF(T)=该文档中所有特征项出现的数目IDF(T)= log (文本集合中所有文档的总数包含特征项 T 的文档的数目+ρ) TF-IDF(T)= TF(T)× IDF(T) 中,为了避免分母为了 0,所以增加参数 , 值为一经验所得,通常取 0.01、0.1 或者(3) 情感特征的结构表示模型。不同文本分析任务可采用不同文本表示模型,目前感分析任务中常用的是向量空间(Vector Space Model,VSM)模型,又称“词袋”(rds)模型,是在 1975 年由 Salton、Wong 和 Yang 等人提出的,其主要的思想是:将每本(document)表示为向量空间的一个向量(Vector),向量空间中每一个维度对应一个不项/词条(term),而每一个维的数值就是对应特征项在文本中的权重(Weight)。即,给定本集合 D ={ , , , },文本 di可以表示为: di= (t1, w1),(t , w2), ,(tm, wm) j=1,2, ,m 为文档 di中的特征项,w 为 的权重,因而也作, di= wj1, wj , , w下图 2.3 所示。若该特征项出现在文档中,则权重值设为 1,如若不出现,权重值设为空间模型,表示方法简单,易于处理。
【参考文献】
相关期刊论文 前10条
1 唐晓波;梁梦婕;;融合结构与内容特征的微博沉默用户兴趣模型构建研究[J];情报学报;2015年11期
2 吴树芳;徐建民;武晓波;;融合用户标签和关系的微博用户相似性度量[J];情报杂志;2014年12期
3 田秀霞;宋羊力;朱涛;王晓玲;;基于用户相似度度量的有效社区Leader选举方法[J];燕山大学学报;2014年06期
4 齐超;陈鸿昶;于洪涛;;基于用户行为综合分析的微博用户影响力评价方法[J];计算机应用研究;2014年07期
5 徐志明;李栋;刘挺;李生;王刚;袁树仑;;微博用户的相似性度量及其应用[J];计算机学报;2014年01期
6 叶璐;;微博中的负面情绪传播分析[J];今传媒;2012年02期
7 谢丽星;周明;孙茂松;;基于层次结构的多策略中文微博情感分析和特征抽取[J];中文信息学报;2012年01期
8 宋晓雷;王素格;李红霞;李德玉;;基于概率潜在语义分析的词汇情感倾向判别[J];中文信息学报;2011年02期
9 赵妍妍;秦兵;刘挺;;文本情感分析[J];软件学报;2010年08期
10 陶富民;高军;王腾蛟;周凯;;面向话题的新闻评论的情感特征选取[J];中文信息学报;2010年03期
相关博士学位论文 前1条
1 余永红;融合多源信息的推荐算法研究[D];南京大学;2017年
相关硕士学位论文 前5条
1 沈磊;基于规则与机器学习方法的中文微博情感分析研究[D];安徽大学;2015年
2 康海潇;基于标签的微博用户兴趣发现算法研究及应用[D];浙江大学;2013年
3 陈晓东;基于情感词典的中文微博情感倾向分析研究[D];华中科技大学;2012年
4 邓夏玮;基于社交网络的用户行为研究[D];北京交通大学;2012年
5 王宇;基于搜索历史的用户兴趣建模[D];复旦大学;2011年
本文编号:2857319
本文链接:https://www.wllwen.com/shekelunwen/shgj/2857319.html