基于词典与改进信息增益的微博情感分析
发布时间:2021-03-30 16:16
随着计算机与网络技术的发展日新月异,社交媒体与网络平台已然成为人们获取、发布、共享、传播信息的载体。这些信息对于政府与企业进行网络舆情监控、电子商务等都具有重要的社会意义与商业价值。本文以新浪微博平台中的人们所发布的语料信息为研究对象,重点研究分析了情感分析任务中基于情感词典与基于机器学习的两种方法。主要研究内容如下:1.针对现有的情感词典由于对网络新词的涵盖率较低而无法应用于微博领域的情感分析问题,本文搜集了当前现有的一些基础情感词典,网络情感词典与表情符号库,并在去重后构造了基础综合情感词典。针对SO-PMI算法中共现窗口大小与语料库规模对算法效果产生不利影响等问题,本文提出了使用距离互信息与古德-图灵平滑方法来对SO-PMI算法进行优化,并利用改进后的SO-PMI算法来扩展基于微博领域的情感词典。通过实验对比综合基础情感词典、基于传统SO-PMI算法扩展的情感词典、基于拉普拉斯平滑的SO-PMI算法扩展的情感词典以及本文所构建的中文微博综合情感词典,使用本文所构建的情感词典进行情感分析的效果皆好于其他三种情感词典。2.研究分析了常用的特征选择算法并着重研究了信息增益算法。针对传统...
【文章来源】:安徽理工大学安徽省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
图2-1文档的向量空间模型示意图??Fig2-1?Schematic?diagram?of?the?vector?space?model?of?the?document??
使两侧的所有节点距离平面最远,两个类之间的距离最远,从而提供分类能力。??有许多超平面符合条件,为了找到超平面,平面两侧的白色空间最大化以实现最??准确的分类。SVM在二维空间下的分类原理如图2-2所示:??i?\??\?H:?=?0??〇?\?m?H+:'lp-x+b=l??c-°?〇?:w?x?+?b?=?-l??????图2-2?SVM分类原理图??Fig2-2?SVM?classification?schematic??15??
将其进行整合,并利用距离互信息与古德-图灵平滑结合改进后的SO-PMI算法对??微博领域的情感词典进行扩展,将两者整合构建出中文微博综合情感词典。主要??组成结构如图3-1所示:??中文微博综合情感词典??构建???T?????議合—词典碰.?嚣???y???5;???iii????^调构|?|M络:^典|?卜?1獅|?|程度_词典|?|否定词词典??图3-1中文微博情感词典组成结构图??Fig3-1?Chinese?Weibo?Sentiment?Dictionary?Composition?Chart??3.2基础综合情感词典构建??本节将利用几种常用情感词典整合构建成的基础微博情感词典,网络情感词??典,表情符号词典,程度副词词典,否定词词典等构建综合基础情感词典。??3.2.1基础情感词典构建??本节将当前使用广泛的几种中文情感词典收集整合后构建成基础情感词典。??1.知网??中科院的董振东教授耗费十年时间构造了知网(Hownet)知识体系t43],同时??知网也是一部较为详实的语义知识词典。在知网中,部分词语的情感倾向可以由??构成其概念的义原(汉语中最小语义单位)表示出来。目前,已经在网上公布了??情感词汇资源信息分为主张词语、正面情感词语、正面评价词语、负面情感词语、??负面评价词语和程度级别词语。本文选取知网情感词汇资源中的正、反面情感词??语,正、反面评价词语来加入基础情感词典中。??本文选用HowNet中情感词的具体数目如表3-1所示:??20??
【参考文献】:
期刊论文
[1]基于语义的微博短文本倾向性分析研究[J]. 马力,刘笑,宫玉龙. 计算机应用研究. 2016(10)
[2]面向中文微博的观点句识别研究[J]. 丁晟春,孟美任,李霄. 情报学报. 2014 (02)
[3]微博产品评论挖掘模型研究[J]. 唐晓波,王洪艳. 情报杂志. 2013(02)
[4]基于机器学习的中文微博情感分类实证研究[J]. 刘志明,刘鲁. 计算机工程与应用. 2012(01)
[5]网络评论情感语料库的构建研究[J]. 崔大志,李媛. 中国社会科学院研究生院学报. 2010(04)
[6]微博:一种蕴含巨大能量的新型传播形态[J]. 喻国明. 新闻与写作. 2010(02)
[7]中文文本分类中的文本表示因素比较[J]. 张爱华,荆继武,向继. 中国科学院研究生院学报. 2009(03)
[8]中文分词算法解析[J]. 张磊,张代远. 电脑知识与技术. 2009(01)
[9]知识抽取中的停用词处理技术[J]. 化柏林. 现代图书情报技术. 2007(08)
[10]基于语义理解的文本倾向性识别机制[J]. 徐琳宏,林鸿飞,杨志豪. 中文信息学报. 2007(01)
博士论文
[1]自动文本分类若干基本问题研究[D]. 宋枫溪.南京理工大学 2004
硕士论文
[1]基于机器学习的微博情感分析及应用[D]. 张俊东.北京邮电大学 2017
[2]中文情感词汇本体的扩充及应用[D]. 赵虹杰.大连理工大学 2015
[3]中文微博情感分析[D]. 张俊.西北民族大学 2015
[4]面向中文微博文本的情感分类研究[D]. 杜锐.湖南工业大学 2014
[5]基于情感词典与规则结合的微博情感分析模型研究[D]. 杨希.安徽大学 2014
[6]基于语义情感空间模型的微博情感倾向性研究[D]. 游建平.暨南大学 2012
[7]搜索引擎中文分词技术研究[D]. 任丽芸.重庆理工大学 2011
本文编号:3109783
【文章来源】:安徽理工大学安徽省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
图2-1文档的向量空间模型示意图??Fig2-1?Schematic?diagram?of?the?vector?space?model?of?the?document??
使两侧的所有节点距离平面最远,两个类之间的距离最远,从而提供分类能力。??有许多超平面符合条件,为了找到超平面,平面两侧的白色空间最大化以实现最??准确的分类。SVM在二维空间下的分类原理如图2-2所示:??i?\??\?H:?=?0??〇?\?m?H+:'lp-x+b=l??c-°?〇?:w?x?+?b?=?-l??????图2-2?SVM分类原理图??Fig2-2?SVM?classification?schematic??15??
将其进行整合,并利用距离互信息与古德-图灵平滑结合改进后的SO-PMI算法对??微博领域的情感词典进行扩展,将两者整合构建出中文微博综合情感词典。主要??组成结构如图3-1所示:??中文微博综合情感词典??构建???T?????議合—词典碰.?嚣???y???5;???iii????^调构|?|M络:^典|?卜?1獅|?|程度_词典|?|否定词词典??图3-1中文微博情感词典组成结构图??Fig3-1?Chinese?Weibo?Sentiment?Dictionary?Composition?Chart??3.2基础综合情感词典构建??本节将利用几种常用情感词典整合构建成的基础微博情感词典,网络情感词??典,表情符号词典,程度副词词典,否定词词典等构建综合基础情感词典。??3.2.1基础情感词典构建??本节将当前使用广泛的几种中文情感词典收集整合后构建成基础情感词典。??1.知网??中科院的董振东教授耗费十年时间构造了知网(Hownet)知识体系t43],同时??知网也是一部较为详实的语义知识词典。在知网中,部分词语的情感倾向可以由??构成其概念的义原(汉语中最小语义单位)表示出来。目前,已经在网上公布了??情感词汇资源信息分为主张词语、正面情感词语、正面评价词语、负面情感词语、??负面评价词语和程度级别词语。本文选取知网情感词汇资源中的正、反面情感词??语,正、反面评价词语来加入基础情感词典中。??本文选用HowNet中情感词的具体数目如表3-1所示:??20??
【参考文献】:
期刊论文
[1]基于语义的微博短文本倾向性分析研究[J]. 马力,刘笑,宫玉龙. 计算机应用研究. 2016(10)
[2]面向中文微博的观点句识别研究[J]. 丁晟春,孟美任,李霄. 情报学报. 2014 (02)
[3]微博产品评论挖掘模型研究[J]. 唐晓波,王洪艳. 情报杂志. 2013(02)
[4]基于机器学习的中文微博情感分类实证研究[J]. 刘志明,刘鲁. 计算机工程与应用. 2012(01)
[5]网络评论情感语料库的构建研究[J]. 崔大志,李媛. 中国社会科学院研究生院学报. 2010(04)
[6]微博:一种蕴含巨大能量的新型传播形态[J]. 喻国明. 新闻与写作. 2010(02)
[7]中文文本分类中的文本表示因素比较[J]. 张爱华,荆继武,向继. 中国科学院研究生院学报. 2009(03)
[8]中文分词算法解析[J]. 张磊,张代远. 电脑知识与技术. 2009(01)
[9]知识抽取中的停用词处理技术[J]. 化柏林. 现代图书情报技术. 2007(08)
[10]基于语义理解的文本倾向性识别机制[J]. 徐琳宏,林鸿飞,杨志豪. 中文信息学报. 2007(01)
博士论文
[1]自动文本分类若干基本问题研究[D]. 宋枫溪.南京理工大学 2004
硕士论文
[1]基于机器学习的微博情感分析及应用[D]. 张俊东.北京邮电大学 2017
[2]中文情感词汇本体的扩充及应用[D]. 赵虹杰.大连理工大学 2015
[3]中文微博情感分析[D]. 张俊.西北民族大学 2015
[4]面向中文微博文本的情感分类研究[D]. 杜锐.湖南工业大学 2014
[5]基于情感词典与规则结合的微博情感分析模型研究[D]. 杨希.安徽大学 2014
[6]基于语义情感空间模型的微博情感倾向性研究[D]. 游建平.暨南大学 2012
[7]搜索引擎中文分词技术研究[D]. 任丽芸.重庆理工大学 2011
本文编号:3109783
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3109783.html