微博客中的知识条目发现方法研究
发布时间:2022-01-04 07:54
随着互联网信息时代的到来,蕴含在海量信息中的知识却相对分散,如何从海量的文本信息中抽取特定的有用的知识,是当下文本处理领域亟待解决的问题之一。微博是目前比较热门的媒体,微博中包含着丰富的文本信息,数据海量且更新速度快,因而成为新知识传播的重要平台,也是获得最新知识条目的重要来源。然而,由于微博兴起时间不长,以及微博文本短小、信息量少,面向微博的知识获取问题还远未得到充分的研究和解决。为此,本文从实际问题出发,主要解决从给定的少量种子知识条目中进行学习,以从微博中自动抽取更多类似知识条目的问题。在本文中,我们首先结合传统的规则学习方法,提出了一种基于依存句法的模板匹配算法,根据句子的句法依存关系,仅分析有直接依赖关系的句法成分,降低了规则模板对训练集句子结构的依赖程度。经实验表明,该算法虽然精度偏低,但能够仅由少量的种子知识条目来获得较高的召回率,因而可以用于对种子知识条目集的大规模扩充。在此基础上,本文实现了基于统计的知识条目抽取算法。在传统的统计模型中,基于条件随机场CRFs的方法获得了当前的最好性能。然而,由于微博中句子短小、表达方式随意,且与传统知识抽取任务相比,上下文较少,这使...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题来源
1.2 课题目的及意义
1.3 国内外研究现状及分析
1.4 本文研究的主要内容
第2章 知识条目抽取相关技术和理论
2.1 引言
2.2 相似度计算方法
2.3 条件随机场模型
2.4 词向量技术
2.5 聚类算法
2.5.1 K-means 聚类算法
2.5.2 近邻传播聚类算法
2.6 本章小结
第3章 知识条目抽取方法
3.1 引言
3.2 基于依存句法的模板匹配算法
3.2.1 算法概述
3.2.2 模板学习
3.2.3 模板匹配和知识抽取
3.3 基于依存句法和词向量的 CRFS 算法
3.3.1 算法概述
3.3.2 标注体系
3.3.3 特征模板
3.3.4 特征选择
3.3.5 模型参数估计
3.3.6 结果标注
3.4 本章小结
第4章 系统的设计与实现
4.1 引言
4.2 系统概述
4.3 数据预处理
4.4 算法设计流程
4.5 实验前台展示
4.6 本章小结
第5章 实验评测和结果分析
5.1 引言
5.2 评测方法
5.3 评测结果
5.3.1 基于依存句法的模板匹配算法
5.3.2 基于依存句法和词向量的 CRFs 算法
5.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
本文编号:3567986
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题来源
1.2 课题目的及意义
1.3 国内外研究现状及分析
1.4 本文研究的主要内容
第2章 知识条目抽取相关技术和理论
2.1 引言
2.2 相似度计算方法
2.3 条件随机场模型
2.4 词向量技术
2.5 聚类算法
2.5.1 K-means 聚类算法
2.5.2 近邻传播聚类算法
2.6 本章小结
第3章 知识条目抽取方法
3.1 引言
3.2 基于依存句法的模板匹配算法
3.2.1 算法概述
3.2.2 模板学习
3.2.3 模板匹配和知识抽取
3.3 基于依存句法和词向量的 CRFS 算法
3.3.1 算法概述
3.3.2 标注体系
3.3.3 特征模板
3.3.4 特征选择
3.3.5 模型参数估计
3.3.6 结果标注
3.4 本章小结
第4章 系统的设计与实现
4.1 引言
4.2 系统概述
4.3 数据预处理
4.4 算法设计流程
4.5 实验前台展示
4.6 本章小结
第5章 实验评测和结果分析
5.1 引言
5.2 评测方法
5.3 评测结果
5.3.1 基于依存句法的模板匹配算法
5.3.2 基于依存句法和词向量的 CRFs 算法
5.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
本文编号:3567986
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3567986.html