当前位置:主页 > 管理论文 > 移动网络论文 >

基于情感词典的中文微博情感分析与话题倾向性判定研究

发布时间:2021-03-11 05:58
  微博具有用户多、消息数量大、更新快等特性,已成为人们获取信息、发表舆论的重要途径。针对微博的情感分析能够获取用户对特定话题的观点,从而挖掘微博背后隐藏的价值。对微博用户发布的内容进行情感分析,最大程度还原用户真实情感,将有助于政府控制社会舆论走向,有助于用户优化自身的购买决策,有助于企业有针对性地进行自我改进,提升市场竞争力。近年来,网络中不断涌现的网络流行语给中文微博情感分析带来了挑战:首先,微博中大量的网络流行语表达了用户态度分明的情感,而现有的情感词典大多并不包含网络流行语;其次,现有的分词工具不能正确识别网络流行语,从而降低了微博分句、分词的准确度;最后,网络流行语具有时效性,其时效性随着热度的增强或减弱,因此需要实时对网络流行语词典中的网络流行语进行添加和删除。综上所述,构建可实时更新的网络流行语词典是微博情感分析的关键。此外,现有的中文情感词典大多是将情感词汇简单地分为正向和负向,然后运用相应的语义规则获取中文文本的情感极性。但是,人们对于事物的情感态度往往不是简单纯粹的,而是复杂多样的。微博用户对于特定话题的情感态度不能只停留在好与坏的层面,而应尽可能对情感类别细分,才能... 

【文章来源】:西南大学重庆市 211工程院校 教育部直属院校

【文章页数】:74 页

【学位级别】:硕士

【部分图文】:

基于情感词典的中文微博情感分析与话题倾向性判定研究


微博情感词典的框架结构

词典,覆盖率,情感


贱 悲伤 愤恨 后怕 粗劣 憋屈 委屈等分别计算三部情感词典和本文组合的基础情感词典对被测试微博的覆盖率,计算寄过如图3-2所示。图3-2中,HowNet代表《知网》HowNet情感词典,Dalian代表大连理工大学情感词典,NTUSD代表台湾大学NTUSD,Basic为本文整理合并的基础情感词典,以POS、NEG为后缀的英文单词分别表示不同词典对正向情感词和负向情感词的覆盖度。图 3-2 词典覆盖率测试结果由图3-2可以观察到:与三大情感词典相比,经过合并整理的基础情感词典较的覆盖率有所提高,但仍未达到理想水平,对正负情感词的覆盖率仅仅为72%、66%。这是因为微博中存在一些具有感情倾向的网络流行语没有被三大词典收录

行语,网络流,构建过程


本文提出一种可以实时更新的网络流行语词典构建方法。构建网络流行语词典的过程分为两个阶段,分别是网络流行语的获取阶段和极性判断阶段。网络流行语词典的构建过程如图3-4。图3-4 网络流行语词典的构建过程在第一阶段,本文采用基于百度、搜狗输入法和微博语料库筛选的方法来获取网络流行语。网络流行语的出现与传播主要依赖于网络用户,拼音输入的智能联想特性和用户选择输入结果的随意性是网络新词产生的重要原因。百度拼音输入和搜狗拼音输入是目前网民广泛使用的输入法产品,二者词库包含的网络流行语是基于搜索引擎技术、根据网民在线输入的统计结果实时自动生成的,并由百度、搜狗不定时对其进行更新。在百度和搜狗输入法中所提供的网络新词中,包含了很多如电视剧名、事件名、电影名、歌名、明星名字等不带有情感极性的近期热搜词汇,所以需要对其进行过滤,从而获取真正的网络流行语。和通用情感词不同,网络流行语的生命周期更短,具有很强的时效性。这是因为网络流行语的产生


本文编号:3075980

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3075980.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2cc9b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com