结合话题相关性的微博文本情感分类研究与实现

发布时间:2021-06-14 19:20
  随着互联网社交的流行,以新浪微博为主的社交平台得到了极大的发展,截止2019年,新浪微博文本数据日均发布量高达1.5亿,是文本数据日均发布量最高的平台。这些文本数据中包含了大量的主观信息,如果能够对这些主观信息进行有效地分析,及时了解用户的情感倾向,并抽取出相应的观点,就可以有效把握舆论趋势,继而惠及政府和民众。故许多研究人员展开了对微博文本进行情感分析的研究。对于微博文本情感分类,以前的方法大多是用人工特征进行粗粒度二分类,会耗费大量人力资源且分类结果较为简单,同时没有对用户的观点做进一步的抽取及可视化,使得用户对情感分类结果较难理解。此外,微博文本是话题与正文结合在一起的形式,很多情况下二者并不相关,若直接对其进行情感分类则会额外耗费资源且对分类器造成干扰。针对以上不足,本文结合话题相关性研究并实现了微博文本情感分类系统,本文主要包含以下几方面的工作:1.构建结合话题相关性的微博文本情感分类模型。该模型包括数据获取模块、数据预处理模块、话题相关性分析模块、微博文本细粒度情感分类模块、观点词抽取情感分析模块共五个模块。2.给出一种不触发反爬虫机制的微博文本批量获取方法以及包含分词、去... 

【文章来源】:西南大学重庆市 211工程院校 教育部直属院校

【文章页数】:90 页

【学位级别】:硕士

【部分图文】:

结合话题相关性的微博文本情感分类研究与实现


带话题的微博文本示例

模块图,情感倾向,平台,模块


西南大学工程硕士学位论文2上图中,“#翟天临涉学术论文造假#”“#昆山燃爆#”引发了网友们的激烈讨论,在微博中跟踪这些热点事件的讨论话题,通过对该话题下的微博文本的情感倾向判断与总结,可以发现大众对具体的国家政策、时事的关注程度以及是否支持,从而为相关的舆论,政策制定提供参考信息。所以,联合话题对微博文本进行分析[2-3]可以为情感分析提供一个更具体的视角,从而更有利于辅助政府进行网络舆情监测,维持社会稳定。对于微博上出现的这些用户原创内容数据(UserGeneratedContent),其中包含了大量的观点以及情绪倾向信息,如何将这些信息通过合理地可视化呈现给用户,也是一项有意义的工作。例如腾讯AI平台情感倾向分析模块中,就可以将用户输入的任何文本以一个状态条的形式表达出情感极性及其强弱,使得用户能直观地得到情感信息。腾讯AI平台情感倾向分析模块如图1.2所示。图1.2腾讯AI平台情感倾向分析模块作者在北京艾漫数据科技股份有限公司实习期间,担任微博情感分类工具的研发工作,其成果的一部分转化为了百度数说中的红黑榜模块。其中红黑粉比例是指对于某个明星而言,其在某一时间段内,微博粉丝对该明星的态度是喜欢(红),还是讨厌(黑)占整个粉丝群体的比例。利用该工具,可以迅速发现某个明星在大众口碑中的大体情况。艾漫数据红黑榜如图1.3所示。图1.3艾漫数据红黑榜

数据,情感倾向,情感,明星


西南大学工程硕士学位论文2上图中,“#翟天临涉学术论文造假#”“#昆山燃爆#”引发了网友们的激烈讨论,在微博中跟踪这些热点事件的讨论话题,通过对该话题下的微博文本的情感倾向判断与总结,可以发现大众对具体的国家政策、时事的关注程度以及是否支持,从而为相关的舆论,政策制定提供参考信息。所以,联合话题对微博文本进行分析[2-3]可以为情感分析提供一个更具体的视角,从而更有利于辅助政府进行网络舆情监测,维持社会稳定。对于微博上出现的这些用户原创内容数据(UserGeneratedContent),其中包含了大量的观点以及情绪倾向信息,如何将这些信息通过合理地可视化呈现给用户,也是一项有意义的工作。例如腾讯AI平台情感倾向分析模块中,就可以将用户输入的任何文本以一个状态条的形式表达出情感极性及其强弱,使得用户能直观地得到情感信息。腾讯AI平台情感倾向分析模块如图1.2所示。图1.2腾讯AI平台情感倾向分析模块作者在北京艾漫数据科技股份有限公司实习期间,担任微博情感分类工具的研发工作,其成果的一部分转化为了百度数说中的红黑榜模块。其中红黑粉比例是指对于某个明星而言,其在某一时间段内,微博粉丝对该明星的态度是喜欢(红),还是讨厌(黑)占整个粉丝群体的比例。利用该工具,可以迅速发现某个明星在大众口碑中的大体情况。艾漫数据红黑榜如图1.3所示。图1.3艾漫数据红黑榜

【参考文献】:
期刊论文
[1]逻辑公式间的Jaccard距离及其应用[J]. 于鹏.  计算机科学与探索. 2020(11)
[2]基于双重注意力模型的微博情感倾向性分析[J]. 罗春春,郝晓燕.  南京大学学报(自然科学). 2020(02)
[3]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖.  网信军民融合. 2019(09)
[4]基于文本聚类的网络微博舆情话题识别与追踪技术研究[J]. 闫俊伢,马尚才.  重庆理工大学学报(自然科学). 2019(09)
[5]基于HowNet的语义表示学习[J]. 朱靖雯,杨玉基,许斌,李涓子.  中文信息学报. 2019(03)
[6]基于话题标签的微博热点话题演化研究[J]. 李慧,王丽婷.  情报科学. 2019(01)
[7]面向微博短文本分类的文本向量化方法比较研究[J]. 李心蕾,王昊,刘小敏,邓三鸿.  数据分析与知识发现. 2018(08)
[8]中文微博情感分析研究与实现[J]. 李勇敢,周学广,孙艳,张焕国.  软件学报. 2017 (12)
[9]结合话题相关性的热点话题情感倾向研究[J]. 何跃,肖敏,张月.  数据分析与知识发现. 2017(03)
[10]用于微博情感分析的一种情感语义增强的深度学习模型[J]. 何炎祥,孙松涛,牛菲菲,李飞.  计算机学报. 2017(04)

硕士论文
[1]基于LDA模型的微博情感分析技术研究[D]. 毛龙龙.西北师范大学 2015



本文编号:3230176

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3230176.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9d3ce***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com