微博事件抽取的关键技术研究
发布时间:2021-02-10 09:11
伴随着互联网技术的普及,微博作为一个可以即时发布与分享信息的社交平台,其地位与作用也在不断提升。微博平台每天产生着海量的事件信息和噪声微博,这些微博内容导致整个微博平台呈现“信息过载”。因此,如何从海量的微博文本中抽取有价值的事件信息,并且进行结构化的表述,使用户直观地查阅微博中的事件,具有非常重要的意义。本文首先探讨了从微博平台获取数据的方法,包括根据平台提供的API和利用爬虫抓取数据。并根据微博文本的特点,对文本的质量进行了鉴别并消除了其中的噪音。在分词和词性标注的基础上进行了基于统计和规则融合的命名实体识别。其次,本文根据训练语料中的事件触发词构建触发词库,注明了每一个事件触发词对应的事件类型和事件子类型,并对触发词库进行了扩充和消歧。经过筛选后触发词可以判定为事件触发词,而包含事件触发词的文本称为备选事件。对于备选事件,本文构建了特征向量并使用支持向量机进行分类。接着根据事件类型抽取事件中的时间表达式和其他元素。实验表明本系统可以使用户高效的从微博平台中挖掘事件信息,可以为进一步的知识推理、自动文摘以及自然语言处理扫清障碍。
【文章来源】:南京邮电大学江苏省
【文章页数】:57 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景和意义
1.2 论文的主要研究内容
1.3 论文的结构安排
第二章 相关背景知识介绍
2.1 微博简介
2.1.1 微博的起源与发展现状
2.1.2 微博的特点
2.2 事件抽取相关
2.2.1 事件抽取定义及相关概念
2.2.2 微博事件抽取研究现状
2.2.3 事件抽取评测
2.3 支持向量机简介
2.4 本章小结
第三章 微博文本预处理及命名实体识别
3.1 微博数据的获取
3.1.1 基于API的数据获取方法
3.1.2 基于网络爬虫的数据获取方法
3.2 微博数据的预处理
3.2.1 微博数据质量的筛选
3.2.2 去除微博文本中包含的噪声
3.2.3 微博文本的分词及去除停用词
3.3 命名实体的识别
3.3.1 基于隐马尔科夫模型的命名实体识别
3.3.2 基于规则的命名实体识别
3.3.3 命名实体识别方案设计
3.4 本章小结
第四章 事件类型识别
4.1 事件触发词的识别
4.1.1 触发词库的构建
4.1.2 触发词语义消歧
4.2 使用支持向量机识别事件类型
4.2.1 特征的选取
4.2.2 基于支持向量机的事件类型识别
4.3 事件类型识别方案设计
4.4 事件元素识别
4.4.1 时间表达式识别
4.4.2 基于支持向量机的事件元素识别
4.5 本章小结
第五章 原型系统设计
5.1 系统实现
5.1.1 系统开发环境
5.1.2 系统框架及各模块设计
5.2 实验分析
5.2.1 实验数据
5.2.2 实验评估标准
5.2.3 命名实体抽取实验
5.2.4 事件类型识别的特征选取实验
5.2.5 事件抽取实验
5.3 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
附录1 攻读硕士学位期间撰写的论文
致谢
【参考文献】:
期刊论文
[1]基于词典与机器学习的中文微博情感分析研究[J]. 孙建旺,吕学强,张雷瀚. 计算机应用与软件. 2014(07)
[2]微博文本处理研究综述[J]. 张剑峰,夏云庆,姚建民. 中文信息学报. 2012(04)
[3]基于层次结构的多策略中文微博情感分析和特征抽取[J]. 谢丽星,周明,孙茂松. 中文信息学报. 2012(01)
[4]多信息融合中文关系抽取技术研究[J]. 林如琦,陈锦秀,杨肖方,许红磊. 厦门大学学报(自然科学版). 2011(03)
[5]音乐领域典型事件抽取方法研究[J]. 丁效,宋凡,秦兵,刘挺. 中文信息学报. 2011(02)
[6]中文事件抽取技术研究[J]. 赵妍妍,秦兵,车万翔,刘挺. 中文信息学报. 2008(01)
博士论文
[1]自由文本的信息抽取模式获取的研究[D]. 姜吉发.中国科学院研究生院(计算技术研究所) 2004
本文编号:3027133
【文章来源】:南京邮电大学江苏省
【文章页数】:57 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景和意义
1.2 论文的主要研究内容
1.3 论文的结构安排
第二章 相关背景知识介绍
2.1 微博简介
2.1.1 微博的起源与发展现状
2.1.2 微博的特点
2.2 事件抽取相关
2.2.1 事件抽取定义及相关概念
2.2.2 微博事件抽取研究现状
2.2.3 事件抽取评测
2.3 支持向量机简介
2.4 本章小结
第三章 微博文本预处理及命名实体识别
3.1 微博数据的获取
3.1.1 基于API的数据获取方法
3.1.2 基于网络爬虫的数据获取方法
3.2 微博数据的预处理
3.2.1 微博数据质量的筛选
3.2.2 去除微博文本中包含的噪声
3.2.3 微博文本的分词及去除停用词
3.3 命名实体的识别
3.3.1 基于隐马尔科夫模型的命名实体识别
3.3.2 基于规则的命名实体识别
3.3.3 命名实体识别方案设计
3.4 本章小结
第四章 事件类型识别
4.1 事件触发词的识别
4.1.1 触发词库的构建
4.1.2 触发词语义消歧
4.2 使用支持向量机识别事件类型
4.2.1 特征的选取
4.2.2 基于支持向量机的事件类型识别
4.3 事件类型识别方案设计
4.4 事件元素识别
4.4.1 时间表达式识别
4.4.2 基于支持向量机的事件元素识别
4.5 本章小结
第五章 原型系统设计
5.1 系统实现
5.1.1 系统开发环境
5.1.2 系统框架及各模块设计
5.2 实验分析
5.2.1 实验数据
5.2.2 实验评估标准
5.2.3 命名实体抽取实验
5.2.4 事件类型识别的特征选取实验
5.2.5 事件抽取实验
5.3 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
附录1 攻读硕士学位期间撰写的论文
致谢
【参考文献】:
期刊论文
[1]基于词典与机器学习的中文微博情感分析研究[J]. 孙建旺,吕学强,张雷瀚. 计算机应用与软件. 2014(07)
[2]微博文本处理研究综述[J]. 张剑峰,夏云庆,姚建民. 中文信息学报. 2012(04)
[3]基于层次结构的多策略中文微博情感分析和特征抽取[J]. 谢丽星,周明,孙茂松. 中文信息学报. 2012(01)
[4]多信息融合中文关系抽取技术研究[J]. 林如琦,陈锦秀,杨肖方,许红磊. 厦门大学学报(自然科学版). 2011(03)
[5]音乐领域典型事件抽取方法研究[J]. 丁效,宋凡,秦兵,刘挺. 中文信息学报. 2011(02)
[6]中文事件抽取技术研究[J]. 赵妍妍,秦兵,车万翔,刘挺. 中文信息学报. 2008(01)
博士论文
[1]自由文本的信息抽取模式获取的研究[D]. 姜吉发.中国科学院研究生院(计算技术研究所) 2004
本文编号:3027133
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3027133.html