融合表情符号的微博文本倾向性分析
发布时间:2017-11-07 19:31
本文关键词:融合表情符号的微博文本倾向性分析
【摘要】:在现代社会中,随着互联网和新媒体的飞速发展,微博呈现爆发性的增长,越来越多的人开始使用微博。在微博上,人们可以实时发布消息来表达对现实生活中各种问题的观点看法,讨论当前热点话题,共享信息资源等。微博用户之间通过相互关注,相互转发和评论使微博中的信息丰富,因而形成了海量的微博情感信息。对微博中的信息进行倾向性分析,分析出微博用户对重大事件、企业产品的观点看法,对网络舆情预警与分析、市场产品调研和市场营销等应用有着十分重要的意义。 现有的中文倾向性分析主要集中在产品评论、新闻报道等领域,而微博作为新兴的社交网络媒体,目前针对微博的倾向性分析还是采用原有的倾向性分析方法,缺少对微博相关特征的分析。本文针对微博的特点,研究工作主要包含如下三个方面: 1.针对微博短文本的语言特点,提出了融合互信息的改进N-Gram微博新词发现方法。 微博是一种极其活跃且口语化的语言,每天都会有很多新词产生,这些新词往往带有一定的情感倾向。本文针对微博中新词的特点,提出了一种融合互信息和N-Gram微博新词发现算法,通过N-Gram算法从微博语料中抽取字符串作为候选特征字,同时计算其互信息来合并候选特征词,从而识别出语料中的新词。实验结果表明,该方法对新词的识别具有较好的效果,可应用于微博的新词发现。 2.针对微博中表情符号的特点,提出了基于统计的微博表情符号词典构建方法。 表情符号是一种十分重要的情感表达形式,已成为微博中人们交流沟通的重要方式。本文根据微博中表情符号的相关特点,提出了一种基于统计的表情符号词典构建方法,根据对微博语料中与表情符号相邻的文本的情感分析,从而确定表情符号的倾向性,进而完成表情符号词典的构建。实验结果表明,使用表情符号词典提高了微博倾向性分析的准确性,达到了较好的实验效果。 3.针对中文微博的特点,提出融合表情符号和微博新词的微博文本倾向性分析算法。 本文在结合新词发现算法和构建的微博表情词典,提出了一种融合表情符号和微博新词的微博文本倾向性分析算法。该算法以微博文本中的情感倾向元素以及相关的语法特征作为情感倾向信息,在原有的以情感词、程度副词、否定词为主的传统情感词典基础上,针对用户的使用习惯及微博语言特征,,添加了表情符号和网络新词,以有效地提升微博倾向性分析的准确度。与此同时,本算法还对微博文本中句子的结构、所处的位置等信息进行分析,从而更好的获得微博消息的情感倾向值。
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【参考文献】
中国期刊全文数据库 前10条
1 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
2 王素格;杨安娜;李德玉;魏英杰;李伟;张武;;基于支持向量机的文本倾向性分类研究[J];中北大学学报(自然科学版);2008年05期
3 贾美英;杨炳儒;郑德权;杨靖;;采用CRF技术的军事情报术语自动抽取研究[J];计算机工程与应用;2009年32期
4 张海军;史树敏;朱朝勇;黄河燕;;中文新词识别技术综述[J];计算机科学;2010年03期
5 丁建立;慈祥;黄剑雄;;一种基于免疫遗传算法的网络新词识别方法[J];计算机科学;2011年01期
6 昝红英;郭明;柴玉梅;吴云芳;;新闻报道文本的情感倾向性研究[J];计算机工程;2010年15期
7 吴涛;张毛迪;陈传波;;一种改进的统计与后串最大匹配的中文分词算法研究[J];计算机工程与科学;2008年08期
8 丁建立;慈祥;黄剑雄;;网络评论倾向性分析[J];计算机应用;2010年11期
9 李明;刘晋;;基于关联规则的新词发现技术研究[J];科技与企业;2012年09期
10 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期
本文编号:1153819
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1153819.html