当前位置:主页 > 科技论文 > 自动化论文 >

基于半监督学习的微博情感分析技术研究

发布时间:2021-01-08 17:40
  web2.0技术的普及,使得广大网络用户从传统的被动接收消息转变为主动发布信息,人们比过去更愿意在网络上分享自己的生活和观点。微博以其操作简单、快捷和实时等特点受到大量用户的青睐。在全球,每天都有数以亿计的微博更新,这庞大的数据看似杂乱无章,毫无规律,但其中却蕴含着丰富的信息,对于个人决策和企业产品的改良具有重要意义。因此,基于微博数据的用户情感分析已经成为学术界热门问题之一。目前,基于监督学习算法的文本情感分析取得不错效果,但是这种算法模型需要的标记数据数量较多。在实际应用中,较多数量标记数据的获取需要消耗较多资源,与之相对,未标记数据获取较为简单。因此,针对中文微博情感分析,本文使用半监督学习算法,将标记数据和未标记数据相结合共同构建模型。但是,由于微博噪声多,口语化等特点,传统文本情感分析方法并不完全适用。因此针对微博的特点,本文研究包括数据预处理、特征提取和模型构建等情感分析的关键性问题,主要研究内容如下:(1)对特征提取方法进行改进。使用传统信息增益率(Information Gain Ratio)提取特征并不能很好地代表微博文本,对于微博中常见的表情和颜文字等不能有效的处理... 

【文章来源】:成都信息工程大学四川省

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于半监督学习的微博情感分析技术研究


文本情感分类流程

决策树,属性,最优划分,向量机


图 2-2 决策树结构示例图本分类中,信息增益(Information Gain)通常作为集合划分的一种对集合进行划分所得的信息增益越大,则说明使用该属性来划分度越高,即选择满足式(2-7)的属性*a 作为划分属性。argmax(,)*aGainDaa A , D 表示数据集,a 表示某个属性, Gain ( D,a)表示使用a划分息增益。常用的 ID3 决策树就是使用信息增益选择最优划分属性的缺点是它通常会偏向取值较多的特征。为了改善这个缺点,C使用信息增益率决定最优划分属性。决策树算法原理简单,实现缺失数据比较敏感,并且容易过拟合。持向量机向量机(Support Vector Machine:SVM)是一种以统计学为基础的它由 Cortes 和 Vapnik 在 1995 年提出[57]。该算法由于其性能优越于 文 本 分 类 中 。 支 持 向 量 机 是 建 立 在 统 计 学 理 论 herbonenksDimension) 和 结 构 风 险 最 小 化 理 论 (Structur

示意图,支持向量机,基本模型,原理


图 2-3 支持向量机基本模型原理示意图wx b 0T,,...)1 2nwww为法向量,b 为偏移距离,则样本空间中任公式如式(2-9)所示。wwxbdT 所有数据都能被超平面正确分类,则对于 xyDii( ,) )。 imwxbywxbyiiTiiT,1,2,...,1,1.1,1;(2-10)中等式成立的数据点称为“支持向量”。SVM类别的间隔,其中两个类别的间隔 r 计算公式如(2-11)wr2

【参考文献】:
期刊论文
[1]面向网络新闻领域的评论情感极性分析[J]. 任聪,李石君.  计算机工程与应用. 2017(01)
[2]基于融合特征的微博主客观分类方法[J]. 张晓梅,李茹,王斌,吴迪,高俊杰.  中文信息学报. 2014(04)
[3]基于情绪相关事件上下文的隐含情绪分类方法研究[J]. 李寿山,李逸薇,刘欢欢,黄居仁.  中文信息学报. 2013(06)
[4]基于k均值聚类的直推式支持向量机学习算法[J]. 王立梅,李金凤,岳琪.  计算机工程与应用. 2013(14)
[5]基于马尔科夫逻辑网的句子情感分析方法[J]. 杨立公,汤世平,朱俭.  北京理工大学学报. 2013(06)
[6]基于主题情感混合模型的无监督文本情感分析[J]. 孙艳,周学广,付伟.  北京大学学报(自然科学版). 2013(01)
[7]基于CRFs的评价对象抽取特征研究[J]. 王荣洋,鞠久朋,李寿山,周国栋.  中文信息学报. 2012(02)
[8]中文文本情感分析综述[J]. 魏韡,向阳,陈千.  计算机应用. 2011(12)
[9]一种结合K近邻法的改进的渐进直推式支持向量机学习算法[J]. 廖东平,王书宏,黎湘.  电光与控制. 2010(10)
[10]情感分析研究综述[J]. 周立柱,贺宇凯,王建勇.  计算机应用. 2008(11)

博士论文
[1]Web评论文本的细粒度意见挖掘技术研究[D]. 黄胜.北京理工大学 2014

硕士论文
[1]基于FOA-SVM的中文文本分类的研究[D]. 薛博.河北工业大学 2014
[2]基于半监督学习的随机森林算法研究与应用[D]. 刘孝良.中国海洋大学 2013
[3]基于机器学习的软件缺陷预测[D]. 涂威威.南京大学 2012
[4]文本分类中特征选择的研究与实现[D]. 范小丽.西北大学 2011
[5]基于人工免疫算法的Web文本挖掘研究[D]. 尹丽玲.哈尔滨工程大学 2010
[6]半监督降维和分类算法研究[D]. 赵玲玲.西安电子科技大学 2009



本文编号:2965021

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2965021.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户32dd4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com