基于网络新闻的知识图谱构建与研究
发布时间:2024-07-07 09:34
由于Web2.0时代的到来,互联网从信息共享时代步入了信息共建时代,网络新闻的迅速发展极大的改变了人们在生活中获取新闻信息的媒介和习惯。在大数据时代的今天,我们要对互联网上日益递增的新闻数据进行高效率的全网检索常常都会因其海量、高复杂性、非结构性的特点而受阻。为了提升用户与互联网之间的互动体验,实现更高质量检索,最终实现能够预测出互联网用户所需信息的目的,知识图谱便应运而生。本文在爬取到的网络新闻数据基础上提取了单一主题新闻中的实体,通过算法调整实体关系网络各个实体之间的关系,从而构建各个新闻事件下的知识图谱。首先对获取到的原始新闻数据进行简单的处理,获得初步的实体和相关关系,然后基于初始关系网络的三元封闭原理,建立了实体间“稳定”这一关系的概念,并计算每条边的“稳定”占总图中的“稳定”比例,以此为依据建立评估实体之间关系的权重的指标。再使用优化的Kruskal算法来获得部分主题新闻的知识图谱,本文中称为基础型知识图谱(Basic Knowledge Graph,后简称BKG)。针对相同的新闻事件,在不同媒介和不同时间点抓取到的数据,可构建出实体种类相异的BKG,而由于不同的新闻数据所...
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 课题研究背景及意义
1.2 国内外研究现状
1.3 论文组织结构
2 背景知识
2.1 数据集的获取
2.1.1 爬虫程序的设计
2.1.2 实体及关系的获取
2.2 三元闭包原理
2.2.1 三元闭包原理的背景
2.2.2 三元闭包的内容
2.3 实体间的相似度
2.4 本章小结
3 知识图谱的构建流程
3.1 Kruskal算法
3.1.1 最小生成树的Kruskal算法
3.1.2 优化的Kruskal算法
3.2 基础型知识图谱的构建
3.2.1 实体关系的量化
3.2.2 使用优化的Kruskal算法构建BKG
3.3 基础型知识图谱的合并
3.4 构建方案的实现和分析
3.5 本章小结
4 图谱构建及效果评估
4.1 图谱的总体设计
4.1.1 图谱的流程设计
4.1.2 图谱的生成环境
4.2 BKG的构建与融合
4.2.1 数据的获取
4.2.2 实体及初步关系的提取
4.2.3 实体关系的量化
4.2.4 BKG的融合
4.3 BKG的展示与评估
4.4 本章小结
5 总结与展望
参考文献
致谢
附录1 攻读硕士学位期间参与的项目和发表的论文
本文编号:4003508
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 课题研究背景及意义
1.2 国内外研究现状
1.3 论文组织结构
2 背景知识
2.1 数据集的获取
2.1.1 爬虫程序的设计
2.1.2 实体及关系的获取
2.2 三元闭包原理
2.2.1 三元闭包原理的背景
2.2.2 三元闭包的内容
2.3 实体间的相似度
2.4 本章小结
3 知识图谱的构建流程
3.1 Kruskal算法
3.1.1 最小生成树的Kruskal算法
3.1.2 优化的Kruskal算法
3.2 基础型知识图谱的构建
3.2.1 实体关系的量化
3.2.2 使用优化的Kruskal算法构建BKG
3.3 基础型知识图谱的合并
3.4 构建方案的实现和分析
3.5 本章小结
4 图谱构建及效果评估
4.1 图谱的总体设计
4.1.1 图谱的流程设计
4.1.2 图谱的生成环境
4.2 BKG的构建与融合
4.2.1 数据的获取
4.2.2 实体及初步关系的提取
4.2.3 实体关系的量化
4.2.4 BKG的融合
4.3 BKG的展示与评估
4.4 本章小结
5 总结与展望
参考文献
致谢
附录1 攻读硕士学位期间参与的项目和发表的论文
本文编号:4003508
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/4003508.html
上一篇:“新青年耀青春”系列活动的五四运动集体记忆建构研究
下一篇:没有了
下一篇:没有了