学术知识图谱的构建及系统设计与实现
发布时间:2023-02-19 20:07
学术知识图谱可以应用于科学语义检索、文献推荐和学术知识问答等场景。本文采取自底向上的方式构建了学术知识图谱SchKG(Scholar Knowledge Graph),SchKG结构上是一种异构网络,节点表示文献、作者、关键词短语等多种类型的实体,边表示实体之间的关系。学术知识图谱的构建需要解决信息抽取、作者消歧、指代消解等问题,本文侧重逻辑架构设计、学术信息抽取和学术知识推理。首先设计图谱的逻辑架构,从公开的文献数据集中抽取学术信息形成基本图谱,然后通过学术知识推理丰富图谱内容。具体工作总结如下:(1)SchKG逻辑架构设计:SchKG逻辑架构包括模式层和数据层。模式层位于数据层之上,通过定义图谱中的学术实体和关系类别等学术概念以规范图谱中的数据;数据层利用原生多模型数据库ArangoDB存储学术知识图谱,设计了多顶点多节点集合的存储模式。(2)学术信息抽取:本文图谱的主要内容来自学术信息抽取,抽取工作包括两个部分。利用反序列化和规则从半结构化的文献元数据中抽取文献、作者、摘要等基本学术信息;基于BiLSTM-BiLSTM-CRF模型从非结构化的文献摘要中抽取关键词短语以表达文献主题...
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景
1.2 国内外研究现状
1.3 论文研究内容
1.4 论文组织结构
第二章 相关技术
2.1 词的分布式表示
2.2 信息抽取
2.2.1 半结构化数据的信息抽取
2.2.2 非结构化文本的命名实体识别
2.3 文档表示
2.3.1 词袋模型
2.3.2 主题模型
2.4 知识图谱表示学习
2.5 原生多模型数据库ArangoDB
2.6 本章小结
第三章 SchKG逻辑架构设计及学术信息抽取
3.1 SchKG逻辑架构设计
3.1.1 模式层的设计
3.1.2 数据层的设计
3.2 文献元数据的学术信息抽取
3.3 文献摘要的关键词短语抽取
3.3.1 文献摘要预处理
3.3.2 词的字符特征表示
3.3.3 词的上下文特征表示
3.3.4 序列标注
3.4 本章小结
第四章 学术知识推理
4.1 文献主题分布生成
4.1.1 文献摘要预处理
4.1.2 基于Online LDA的文献主题分布生成
4.2 引用文献的相似关系推理
4.3 学术知识表示
4.3.1 正负样本的构造
4.3.2 基于TransH的学术知识表示
4.4 学术知识推理
4.4.1 作者协同写作关系推理
4.4.2 文献相似关系推理
4.4.3 作者研究领域相似关系推理
4.5 本章小结
第五章 系统的设计实现与性能测试
5.1 系统需求分析
5.2 系统架构设计
5.3 数据集
5.4 系统环境
5.5 系统模块的设计与实现
5.5.1 学术知识存储模块的设计与实现
5.5.2 学术信息抽取模块的设计与实现
5.5.3 学术知识推理模块的设计与实现
5.6 系统性能测试
5.6.1 关键词短语抽取性能测试
5.6.2 学术知识推理性能测试
5.6.3 查询性能测试
5.7 系统展示
5.7.1 学术知识图谱数据统计
5.7.2 学术知识图谱可视化展示
5.7.3 查询展示
5.8 本章小结
第六章 总结和展望
致谢
参考文献
作者简介
本文编号:3746874
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景
1.2 国内外研究现状
1.3 论文研究内容
1.4 论文组织结构
第二章 相关技术
2.1 词的分布式表示
2.2 信息抽取
2.2.1 半结构化数据的信息抽取
2.2.2 非结构化文本的命名实体识别
2.3 文档表示
2.3.1 词袋模型
2.3.2 主题模型
2.4 知识图谱表示学习
2.5 原生多模型数据库ArangoDB
2.6 本章小结
第三章 SchKG逻辑架构设计及学术信息抽取
3.1 SchKG逻辑架构设计
3.1.1 模式层的设计
3.1.2 数据层的设计
3.2 文献元数据的学术信息抽取
3.3 文献摘要的关键词短语抽取
3.3.1 文献摘要预处理
3.3.2 词的字符特征表示
3.3.3 词的上下文特征表示
3.3.4 序列标注
3.4 本章小结
第四章 学术知识推理
4.1 文献主题分布生成
4.1.1 文献摘要预处理
4.1.2 基于Online LDA的文献主题分布生成
4.2 引用文献的相似关系推理
4.3 学术知识表示
4.3.1 正负样本的构造
4.3.2 基于TransH的学术知识表示
4.4 学术知识推理
4.4.1 作者协同写作关系推理
4.4.2 文献相似关系推理
4.4.3 作者研究领域相似关系推理
4.5 本章小结
第五章 系统的设计实现与性能测试
5.1 系统需求分析
5.2 系统架构设计
5.3 数据集
5.4 系统环境
5.5 系统模块的设计与实现
5.5.1 学术知识存储模块的设计与实现
5.5.2 学术信息抽取模块的设计与实现
5.5.3 学术知识推理模块的设计与实现
5.6 系统性能测试
5.6.1 关键词短语抽取性能测试
5.6.2 学术知识推理性能测试
5.6.3 查询性能测试
5.7 系统展示
5.7.1 学术知识图谱数据统计
5.7.2 学术知识图谱可视化展示
5.7.3 查询展示
5.8 本章小结
第六章 总结和展望
致谢
参考文献
作者简介
本文编号:3746874
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3746874.html