基于微博的热点事件挖掘与情感分析
发布时间:2021-10-10 12:04
随着计算机技术的不断发展,微博从各个方面渗透并影响着人们的生活,已经成为人们分享信息、交流情感的一个重要平台。每天微博上都有大量有价值的文本产生,这些文本或是对当前热点时事、重要事件的描述,或是这些热点事件、话题的评论信息。对于一些热点事件,微博的便捷性、实时性等特点更使得微博可以先一步传统媒体发布相关信息并做出反应。及时了解这些事件信息并分析相关情感信息对于更好的应对一些突发事件、把握舆论导向都具有重要意义。当前微博信息挖掘技术是一个研究热点,涉及学科范围也很广,本文主要就微博热点事件抽取和情感分析两方面做了研究。热点事件抽取方面主要是首先对微博数据进行预处理,去除数据中噪声信息;然后通过对句子中的命名实体识别、触发词以及时间等信息的识别,得到事件的关键词信息;根据事件关键词信息,计算各个事件之间的相关度,得到事件相关微博量占总微博的比例;最后再根据事件相关微博的发布时间分布找出相关热点事件。对于情感分析,本文提出了一个对微博中评论信息的主观情感进行分类的方法,主要是利用微博文本中表情动画、动词以及句型等特征信息来构造特征集;再根据这个特征集,生成特征向量;最后通过SVM分类器生成情...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.2 国内外研究现状
1.3 主要研究内容
1.4 论文结构
1.5 小结
第二章 中文微博信息抽取技术
2.1 微博文本特征
2.2 信息抽取的基本原理
2.2.1 信息抽取体系结构
2.2.2 信息抽取实现常用方法
2.2.3 信息抽取的评测标准
2.3 信息抽取相关技术
2.3.1 命名实体识别技术
2.3.2 指代消解
2.4 信息抽取与信息检索的区别
2.5 本章小结
第三章 微博热点事件抽取
3.1 研究意义
3.2 系统框架
3.3 热点事件抽取关键技术
3.3.1 中文微博文本预处理
3.3.2 命名实体识别技术
3.3.3 触发词抽取规则
3.3.4 时间抽取规则
3.3.5 事件相关度计算
3.4 热点事件抽取方法
3.4.1 事件抽取及分类
3.4.2 微博热点事件抽取
3.5 实验结果与分析
3.5.1 实验步骤与结果
3.5.2 系统性能分析
3.6 本章小结
第四章 中文微博情感分析
4.1 研究意义
4.2 系统模型体系结构
4.3 具体实现
4.3.1 特征选取
4.3.2 特征向量生成
4.3.3 系统模型实现
4.4 实验结果与系统性能分析
4.4.1 特征个数对实验结果的影响
4.4.2 训练集大小对结果的影响
4.4.3 数据来源对结果的影响
4.5 本章小结
第五章 结论与展望
5.1 工作总结
5.2 展望
参考文献
致谢
攻读硕士学位期间已发表或录用的论文
【参考文献】:
期刊论文
[1]EDM:高效的微博事件检测算法[J]. 童薇,陈威,孟小峰. 计算机科学与探索. 2012(12)
[2]基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J]. 李劲,张华,吴浩雄,向军. 计算机应用. 2012(08)
[3]基于情绪知识的中文微博情感分类方法[J]. 庞磊,李寿山,周国栋. 计算机工程. 2012(13)
[4]基于隐主题分析和文本聚类的微博客中新闻话题的发现[J]. 路荣,项亮,刘明荣,杨青. 模式识别与人工智能. 2012(03)
[5]基于中心化的微博热点发现方法[J]. 蔡淑琴,张静,王旸,马玉涛,林勇. 管理学报. 2012(06)
[6]一种中文微博新闻话题检测的方法[J]. 郑斐然,苗夺谦,张志飞,高灿. 计算机科学. 2012(01)
[7]基于层次结构的多策略中文微博情感分析和特征抽取[J]. 谢丽星,周明,孙茂松. 中文信息学报. 2012(01)
[8]基于机器学习的中文微博情感分类实证研究[J]. 刘志明,刘鲁. 计算机工程与应用. 2012(01)
本文编号:3428345
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.2 国内外研究现状
1.3 主要研究内容
1.4 论文结构
1.5 小结
第二章 中文微博信息抽取技术
2.1 微博文本特征
2.2 信息抽取的基本原理
2.2.1 信息抽取体系结构
2.2.2 信息抽取实现常用方法
2.2.3 信息抽取的评测标准
2.3 信息抽取相关技术
2.3.1 命名实体识别技术
2.3.2 指代消解
2.4 信息抽取与信息检索的区别
2.5 本章小结
第三章 微博热点事件抽取
3.1 研究意义
3.2 系统框架
3.3 热点事件抽取关键技术
3.3.1 中文微博文本预处理
3.3.2 命名实体识别技术
3.3.3 触发词抽取规则
3.3.4 时间抽取规则
3.3.5 事件相关度计算
3.4 热点事件抽取方法
3.4.1 事件抽取及分类
3.4.2 微博热点事件抽取
3.5 实验结果与分析
3.5.1 实验步骤与结果
3.5.2 系统性能分析
3.6 本章小结
第四章 中文微博情感分析
4.1 研究意义
4.2 系统模型体系结构
4.3 具体实现
4.3.1 特征选取
4.3.2 特征向量生成
4.3.3 系统模型实现
4.4 实验结果与系统性能分析
4.4.1 特征个数对实验结果的影响
4.4.2 训练集大小对结果的影响
4.4.3 数据来源对结果的影响
4.5 本章小结
第五章 结论与展望
5.1 工作总结
5.2 展望
参考文献
致谢
攻读硕士学位期间已发表或录用的论文
【参考文献】:
期刊论文
[1]EDM:高效的微博事件检测算法[J]. 童薇,陈威,孟小峰. 计算机科学与探索. 2012(12)
[2]基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J]. 李劲,张华,吴浩雄,向军. 计算机应用. 2012(08)
[3]基于情绪知识的中文微博情感分类方法[J]. 庞磊,李寿山,周国栋. 计算机工程. 2012(13)
[4]基于隐主题分析和文本聚类的微博客中新闻话题的发现[J]. 路荣,项亮,刘明荣,杨青. 模式识别与人工智能. 2012(03)
[5]基于中心化的微博热点发现方法[J]. 蔡淑琴,张静,王旸,马玉涛,林勇. 管理学报. 2012(06)
[6]一种中文微博新闻话题检测的方法[J]. 郑斐然,苗夺谦,张志飞,高灿. 计算机科学. 2012(01)
[7]基于层次结构的多策略中文微博情感分析和特征抽取[J]. 谢丽星,周明,孙茂松. 中文信息学报. 2012(01)
[8]基于机器学习的中文微博情感分类实证研究[J]. 刘志明,刘鲁. 计算机工程与应用. 2012(01)
本文编号:3428345
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3428345.html