当前位置:主页 > 社科论文 > 新闻传播论文 >

基于自动标注训练集的中文微博情感分类的研究

发布时间:2020-03-17 20:44
【摘要】:微博已经成为最受网民欢迎的社交网络平台之一,它的快速发展使其显示出了巨大的商业价值和社会价值。用户已经习惯在微博上获取、分享信息以及发表对于时事热点话题或者产品的观点意见,这些观点往往带有丰富的情感色彩,因此,面向大规模微博数据的情感挖掘具有重大意义。通过情感挖掘可以及时了解用户对舆论热点、产品、政策等的反应,有助于为用户自身、政府机构、企业等提供决策支持。到目前为止,英文微博情感挖掘已经有了大量研究成果,而中文微博的情感分析还处于起步阶段。本文的主要研究工作包括以下几点:1.以用户数最多的微博平台一新浪微博为研究对象,通过其开放平台API获取大规模的原始微博数据,分析了微博数据的特征并比较了微博文本和传统网络文本的不同。2.由于目前尚无高标准的己标注情感信息的微博语料库,本文提出了一种基于表情符号和心理词汇的自动标注微博语料训练集的方法,获取正负情感分类和七类情感分类的训练集,该方法省去了大量的人工标注的负担,减少了传统标注方式对领域、主题和时间等因素的依赖。基于此方法构建了一定规模的语料库。3.本文把微博情感倾向性分类任务主要分为两种,即正负面情感分类和七类情感(高兴、喜爱、惊、焦虑、哀、怒、恶)分类。我们将自动标注好的用于两种分类任务的语料库作为训练集构建微博情感分类器,用以对微博文本进行情感极性分类。4.本文针对上述两种情感分类任务,分别进行了基于n-gram特征项的实验,以及两种特征选择方法‘(信息增益、卡方统计)和两种分类算法(朴素贝叶斯、支持向量机)的交叉验证实验。实验结果表明,正负情感分类的整体性能优于七类情感分类。在正负情感分类任务中,Unigram特征项的性能优于Bigram;信息增益结合朴素贝叶斯的组合性能最佳。七类情感分类任务中,Bigram特征项的性能优于Unigram;两种特征选择方法结合朴素贝叶斯和支持向量机算法实验时,F-测度值的差异性不大。
【图文】:

首页,用户界面,标签,文史


用和使用便捷,可意时间,任意地点发送或获得信息和图片。基于此,,本文逡逑选用的微博语料数据来源是新浪微博。下面对新浪微博的功能和应用做简单的介逡逑绍。图2.1是新浪微博用户的基本结构。逡逑。兽窃逦锦就}v焌笠1惦生佭?^;~枺鼖)樷》逦巧抑颁逡逑瞬堪TB逦逦逦邋\^j|P敏踞逡逑^逦矿逡逑众夬I逦L心…逡逑货舒橗逦250邋103邋520逡逑—逦邋.....逦逦逦邋歐窃兰~T逡逑I邋@巧^逦'逦…….~s始楾知货-逡逑I逦mm逦逦邋掉屋

本文编号:2587679

资料下载
论文发表

本文链接:https://www.wllwen.com/xinwenchuanbolunwen/2587679.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户87e2e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com