高校学生的微博情感分析
发布时间:2020-11-02 20:53
随着信息技术的快速发展,互联网进入了web2.0时代。在这个日新月异的网络发展浪潮中,人们沟通的渠道从传统的电子通讯产品转向方便快捷的社交媒体,如微博和微信。由于微信用户面对的是现实生活中的朋友圈,这导致人们发送微信内容时往往有所顾虑。而微博用户面对的是虚拟网络,所以博文内容拘束性弱,更能反应人们的真实情感和观点。作为高校学生常用的社交软件之一,微博也为大家了解高校学生生活、学习、心理等状态提供一种有效的渠道。因此,如何有效地提取和挖掘蕴含在海量博文中的情感信息是一项很有意义的研究。目前国内学者对于博文的情感分析,主要是针对某一热点话题的舆情分析。本文主要是通过博文的情感分析探索某高校学生的兴趣点和心理健康问题,结合统计方法和机器学习方法研究该高校学生微博情感特点,并建立异常博文情感的识别系统。所提的方法可应用于国内各高校学生的博文情感研究。本文数据是通过爬虫技术从某高校官方微博中随机抽取学生的博文信息。论文结构如下:第二章通过从博文中的关键词提取,发现不同学历学生的博文内容存在差异,本科生和硕士生的文本常用词汇十分接近,但博士生与前两者差异较大。第三章改进了文本分词,构建词向量,使用主成分分析对词向量降维并计算合成词的与情感词典中的词汇相似度,最终量化这类合成词的感情色彩。第四章构建了预测博文情感的评分卡模型。经过测试集验证,模型的AUC值达到0.86,表明该评分卡模型对微博的情感特征评定具有较高的精确度。第五章分析博文情感分的影响因素,从情感得分挖掘学生们在推送不同主题博文时的情感差异,发现微博的内容和娱乐美食有关时,博文情感得分偏高,和科研学习有关时,博文情感分较低。构建了异常博文情感观察系统,可用于识别有严重心理问题或极端情绪的学生。
【学位单位】:北京工业大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:C81
【部分图文】:
北京工业大学应用统计硕士专业学位论文图 1-2 用户的微博 IDFigure 1-2 ID number of customer我们利用这些 ID 可以根据指定的规则匹配出用户博文的 API 接口,进而解出想要的信息。通常,网页将信息储存为 JSON(JavaScript Object Notation)文,不但易于阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输率。获取的 JSON 文件结构类似于图 1-3,我们可以通过输入 JSON 文件的各接点名称获取数据,如按顺序输入“data”,“status”,“1”就能获取某一篇文的所有信息。
comment_count 评论数repost_count 转发数created_at 博文推送时间isLongText 是否为长微博Source 博文推送来源Text 博文内容textLength 博文长度Id 博主 IDGender 博主性别screen_name 博主昵称爬取的博文内容比较杂乱,数据处理过程中存在很多问题。主要集中在:a) 博文存在大量的标签;b) 表情和文字混合;c) 部分博文为纯转发类型,不带有任何文字或表情;d) 博文不全是文字,部分博文仅有图片或者视频,甚至只出现呼叫好友的
图 2-1 不同学历的学生个数比例Figure 2-1 Different proportion of degree1 中可以看出,爬取博主的教育程度接近高校学生的学历具有代表性。图 2-2 中的性别分布上,女性占了较大比例容和人群是密切相关的。女性在使用微博发表自身言论的态、娱乐八卦等热点信息,而男性对该方面缺少明显的兴于从其他平台获取体育,时政等方面的信息。
【参考文献】
本文编号:2867557
【学位单位】:北京工业大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:C81
【部分图文】:
北京工业大学应用统计硕士专业学位论文图 1-2 用户的微博 IDFigure 1-2 ID number of customer我们利用这些 ID 可以根据指定的规则匹配出用户博文的 API 接口,进而解出想要的信息。通常,网页将信息储存为 JSON(JavaScript Object Notation)文,不但易于阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输率。获取的 JSON 文件结构类似于图 1-3,我们可以通过输入 JSON 文件的各接点名称获取数据,如按顺序输入“data”,“status”,“1”就能获取某一篇文的所有信息。
comment_count 评论数repost_count 转发数created_at 博文推送时间isLongText 是否为长微博Source 博文推送来源Text 博文内容textLength 博文长度Id 博主 IDGender 博主性别screen_name 博主昵称爬取的博文内容比较杂乱,数据处理过程中存在很多问题。主要集中在:a) 博文存在大量的标签;b) 表情和文字混合;c) 部分博文为纯转发类型,不带有任何文字或表情;d) 博文不全是文字,部分博文仅有图片或者视频,甚至只出现呼叫好友的
图 2-1 不同学历的学生个数比例Figure 2-1 Different proportion of degree1 中可以看出,爬取博主的教育程度接近高校学生的学历具有代表性。图 2-2 中的性别分布上,女性占了较大比例容和人群是密切相关的。女性在使用微博发表自身言论的态、娱乐八卦等热点信息,而男性对该方面缺少明显的兴于从其他平台获取体育,时政等方面的信息。
【参考文献】
相关期刊论文 前7条
1 李婷婷;姬东鸿;;基于SVM和CRF多特征组合的微博情感分析[J];计算机应用研究;2015年04期
2 罗知林;陈挺;蔡皖东;;一个基于随机森林的微博转发预测算法[J];计算机科学;2014年04期
3 高明;金澈清;钱卫宁;王晓玲;周傲英;;面向微博系统的实时个性化推荐[J];计算机学报;2014年04期
4 黄星;;微博用语的解读[J];海南大学学报(人文社会科学版);2014年02期
5 张金伟;刘晓平;;基于心理预警模型的微博情感识别研究[J];合肥工业大学学报(自然科学版);2013年11期
6 王冠华;张福珍;;大学生使用微博的心理原因探析[J];科教文汇(上旬刊);2013年11期
7 谢丽星;周明;孙茂松;;基于层次结构的多策略中文微博情感分析和特征抽取[J];中文信息学报;2012年01期
相关博士学位论文 前1条
1 李义萍;基于微博的青少年心理压力趋势预测[D];清华大学;2015年
相关硕士学位论文 前2条
1 陈文焰;基于双数组Trie的高效索引结构及其并行化的研究[D];昆明理工大学;2018年
2 丁媛媛;基于时间序列的微博热点话题识别与追踪[D];西安科技大学;2017年
本文编号:2867557
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2867557.html