基于词嵌入的本体对齐研究
发布时间:2022-07-14 10:59
计算机网络的迅速发展导致数据产生爆炸式的增长,知识图谱为这些网络上异构、海量、动态数据的表示、组织、管理和利用提供了一种高效的方式,提高了网络的智能化水平。本体是从客观世界中抽象出来的概念模型,包含概念以及概念之间的关系,是对知识的抽象和对某个领域之中的概念及其之间关系的形式化表达。构建本体的目的是描述领域知识,领域中存在的并行本体开发现象提出了本体对齐的需求。本体对齐以本体作为输入,以对齐结果作为输出,确定不同本体中语义相关的实体之间的对应关系,是语义网互操作性的关键促成因素。随着表示学习技术在自然语言处理领域的发展与成熟,专家学者开始尝试将其应用于本体对齐问题。与原有的特征提取方法相比,表示学习技术存在一定优势,使用大量相关语料预训练得到的词嵌入能够表示单词内在的语义信息,识别字面表示不同而语义相同的单词。但是由于词嵌入的生成依靠单词的上下文,这导致词嵌入存在无法准确区分语义相似性与描述相关性。为了解决这一问题,本文结合本体对齐的具体任务,使用SCBOW模型和Knowledge distillation模型对词嵌入进行改进,利用改进后的词嵌入获取实体嵌入,从而计算两个实体的相似度,...
【文章页数】:53 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题来源
1.2 课题背景
1.3 研究意义
1.4 国内外研究现状
1.5 本文主要内容
1.6 本文结构安排
第2章 本体对齐相关技术与模型
2.1 问题描述
2.2 相似度计算技术
2.2.1 字符串相似度
2.2.2 向量相似度
2.3 词嵌入技术
2.3.1 one-hot编码
2.3.2 word2vec
2.4 词嵌入改进技术
2.4.1 Siamese CBOW模型
2.4.2 知识蒸馏
2.4.3 降噪自动编码器
2.5 知识图谱嵌入技术
2.6 本章小结
第3章 数据处理与本体对齐模型
3.1 本体简介
3.2 数据处理
3.2.1 UMLS本体数据获取
3.2.2 精准医学本体数据获取
3.3 本体对齐模型
3.3.1 SCBOW+Knowledge distillation模型
3.3.2 实体匹配算法
3.3.3 本体对齐任务中的改进DAE
3.3.4 加入结构信息的本体对齐模型
3.4 本章小结
第4章 实验设置与结果分析
4.1 数据集
4.2 模型参数设置
4.3 评价指标
4.4 实验结果分析
4.5 本章小结
结论
参考文献
致谢
本文编号:3661000
【文章页数】:53 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题来源
1.2 课题背景
1.3 研究意义
1.4 国内外研究现状
1.5 本文主要内容
1.6 本文结构安排
第2章 本体对齐相关技术与模型
2.1 问题描述
2.2 相似度计算技术
2.2.1 字符串相似度
2.2.2 向量相似度
2.3 词嵌入技术
2.3.1 one-hot编码
2.3.2 word2vec
2.4 词嵌入改进技术
2.4.1 Siamese CBOW模型
2.4.2 知识蒸馏
2.4.3 降噪自动编码器
2.5 知识图谱嵌入技术
2.6 本章小结
第3章 数据处理与本体对齐模型
3.1 本体简介
3.2 数据处理
3.2.1 UMLS本体数据获取
3.2.2 精准医学本体数据获取
3.3 本体对齐模型
3.3.1 SCBOW+Knowledge distillation模型
3.3.2 实体匹配算法
3.3.3 本体对齐任务中的改进DAE
3.3.4 加入结构信息的本体对齐模型
3.4 本章小结
第4章 实验设置与结果分析
4.1 数据集
4.2 模型参数设置
4.3 评价指标
4.4 实验结果分析
4.5 本章小结
结论
参考文献
致谢
本文编号:3661000
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3661000.html
最近更新
教材专著