当前位置:主页 > 科技论文 > 软件论文 >

利用结构化特征解决面向社交媒体信息情感分析的研究

发布时间:2019-09-29 12:08
【摘要】:情感分析是自然语言处理领域中的一项重要研究任务.本文针对Twitter等社交媒体平台的文本信息,对有监督类和无监督类情感分析方法进行了调查研究,设计了一个利用结构化语言学特征实现基于词典的无监督类情感分析系统.系统由三部分组成:精准且带有情感感知的预处理保证了从情感词典中成功检索词语的情感分值和识别各类表情及其对应极性;结构化的语言学特征对情感分值进行逐级优化;最后通过情感分值计算器得到文本情感分值从而实现情感分析.模块独立性使其便于被单独修正、完善及扩展,此外,系统允许改变特征提取模块的配置进行情感分值计算从而优化在不同应用环境下的情感分析.
【图文】:

系统框图,书写方式,长度限制,系统框图


侗稹⒍逃锛侗鸺熬渥蛹侗穑嗤⒔鄨饽刑卣饕越峁够?的形式表示出来.考虑到大部分特征在目前针对Twitter数据的情感分析工作中未被充分利用,我们将着重针对大写化、重复字母、符号表情以及否定词、修饰词的使用来重新评估带有情感极性词语的强度;最后我们借助于四个现有的情感极性词典为每条tweet计算其极性分值并推断其最可能的所属类别.通过在一个公开的真实tweet数据库上对我们的系统进行评估表明,相较于其他前人的工作,我们所用的预处理器及语言学特征对分类结果实现了重大改进.2基于结构化特征的情感分析方法如图1所示为本文所提出的情感分析方法的整体框架结构.本文选择tweet作为系统输入,考虑到Twitter平台对文本图1系统框图Fig.1Frameworkofproposedsystem的长度限制使得tweet具有很多非正式的书写方式和语言特征,成为所有社交媒体文本中最坏的情况.系统第一部分是情感感知的数据预处理器,,包括分词、标准化和词性标注;第二部分为结构化语言特征提取,也是系统核心部分.我们将详细描述一系列词语级别、短语级别和句子级别的语言特征提取方式;第三部分是情感计算器,即计算一条tweet的情感分值强度,最终根据该值判断tweet的情感极性.2.1创建辅助词典为有效实现数据预处理和特征提取步骤,首先人工创建5个辅助字典,表1为这些词典的概述.表1辅助词典描述Table1Descriptionofauxiliarydictionary字典名称描述举例Den英语单词(美式英语/英式英语拼写)happy,sad,goodDen↑增强语气的词语very,really,extremelyDen↓减弱语气的词语hardly,slightly,alittleDen否定词not,neither,neverDslang网络俚语(包含其原形)lol:laughoutloud2.2数据预处理预处理包括分词、标准化和词?
【作者单位】: 天津大学电子信息工程学院;
【基金】:国家自然科学基金项目(61572356,61303208)资助 天津市应用基础与前沿技术研究计划项目(15JCQNJC41600)资助
【分类号】:TP391.1


本文编号:2543922

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2543922.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0aad4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com