档案知识图谱构建技术研究
发布时间:2021-04-23 13:24
随着计算机信息技术的发展,档案数据的类型由单一的结构化数据变得多样化,档案数据规模也显著增长。本文针对档案知识图谱构建技术进行研究,旨在通过改变档案数据的存储方式和档案资源的使用方式,为档案数字信息化提供一种新的思路。论文依据档案概念模型理论标准,提出采用七步法构建档案本体,分析了档案知识图谱的专业领域范围,同时定义了档案实体类型和实体之间的层级关系。在完成档案本体构建分析之后,论文对档案实体识别模块进行了架构设计,并提出了两种档案实体识别算法来实现档案实体知识的抽取。然后通过实验对两种档案实体识别算法进行了质量评估,得出结论基于LSTM网络的实体识别算法相比基于规则匹配的实体识别算法具有更高的正确率。在完成实体识别工作之后,论文提出采用基于实体词性的关系抽取算法和基于依存句法分析的关系抽取算法对档案实体之间的关系进行抽取。最后通过实验对两种档案关系抽取算法进行了质量评估,得出结论基于依存句法分析的关系抽取算法的正确率要高于基于实体词性的关系抽取算法。为了解决档案知识图谱中知识重复的问题,论文对档案知识融合模块进行了架构设计,并提出通过建立分区索引,减小知识融合的工作量。在论证了属性权...
【文章来源】:中国电子科技集团公司电子科学研究院北京市
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
注释表
缩略词
第一章 绪论
1.1 研究背景和意义
1.2 研究内容和创新点
1.3 国内外研究现状
1.3.1 档案信息数字化
1.3.2 构建知识图谱技术
1.4 论文组织结构
第二章 知识图谱构建技术综述
2.1 知识图谱技术概念
2.2 知识图谱构建方法和流程
2.2.1 知识图谱构建方法
2.2.2 知识图谱构建流程
2.3 知识图谱在商业领域的应用
2.4 本章小结
第三章 档案知识图谱本体构建和知识抽取
3.1 构建档案本体
3.1.1 档案本体构建标准
3.1.2 基于七步法构建档案本体
3.2 档案实体识别和关系抽取
3.2.1 档案实体识别模块设计
3.2.2 基于规则的档案实体识别
3.2.3 基于机器学习的档案实体识别
3.2.4 基于实体词性的档案关系抽取
3.2.5 基于依存句法分析的档案关系抽取
3.3 本章小结
第四章 档案知识融合
4.1 知识融合模块设计
4.1.1 知识融合模块流程分析
4.1.2 基于MinHash建立分区索引
4.2 成对知识融合
4.2.1 基于属性权重的成对实体对齐
4.2.2 基于机器学习的成对实体对齐
4.3 集体知识融合
4.3.1 局部集体实体对齐
4.3.2 基于概率模型的全局集体对齐
4.4 本章小结
第五章 档案知识图谱质量评估
5.1 档案实体识别质量评估
5.1.1 实验设置
5.1.2 实验结果与分析
5.2 档案关系抽取质量评估
5.2.1 实验设置
5.2.2 实验结果与分析
5.3 档案数据实体对齐质量评估
5.3.1 实验设置
5.3.2 实验结果与分析
5.4 本章小结
第六章 总结与展望
6.1 本文总结
6.2 工作展望
参考文献
致谢
在学期间发表的学术论文及取得的研究成果
【参考文献】:
期刊论文
[1]中文实体关系抽取研究综述[J]. 武文雅,陈钰枫,徐金安,张玉洁. 计算机与现代化. 2018(08)
[2]面向企业知识图谱构建的中文实体关系抽取[J]. 孙晨,付英男,程文亮,钱卫宁. 华东师范大学学报(自然科学版). 2018(03)
[3]论数字档案馆生态系统的健康管理[J]. 罗传祥. 档案管理. 2018(01)
[4]国际文件/档案著录标准化前沿与趋势展望——基于国际最新著录标准ICA RiC的研究[J]. 段荣婷,马寅源,李真. 档案管理. 2018(01)
[5]基于中文知识图谱的电商领域问答系统[J]. 杜泽宇,杨燕,贺樑. 计算机应用与软件. 2017(05)
[6]知识图谱研究进展[J]. 漆桂林,高桓,吴天星. 情报工程. 2017(01)
[7]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[8]知识库实体对齐技术综述[J]. 庄严,李国良,冯建华. 计算机研究与发展. 2016(01)
[9]基于知识图谱的专家系统发展综述[J]. 廖佚. 现代情报. 2012(02)
[10]中国2009年金融学研究的知识图谱分析——南京大学知识图谱研究组系列论文[J]. 童玲玉,宗乾进,袁勤俭. 现代情报. 2011(05)
本文编号:3155411
【文章来源】:中国电子科技集团公司电子科学研究院北京市
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
注释表
缩略词
第一章 绪论
1.1 研究背景和意义
1.2 研究内容和创新点
1.3 国内外研究现状
1.3.1 档案信息数字化
1.3.2 构建知识图谱技术
1.4 论文组织结构
第二章 知识图谱构建技术综述
2.1 知识图谱技术概念
2.2 知识图谱构建方法和流程
2.2.1 知识图谱构建方法
2.2.2 知识图谱构建流程
2.3 知识图谱在商业领域的应用
2.4 本章小结
第三章 档案知识图谱本体构建和知识抽取
3.1 构建档案本体
3.1.1 档案本体构建标准
3.1.2 基于七步法构建档案本体
3.2 档案实体识别和关系抽取
3.2.1 档案实体识别模块设计
3.2.2 基于规则的档案实体识别
3.2.3 基于机器学习的档案实体识别
3.2.4 基于实体词性的档案关系抽取
3.2.5 基于依存句法分析的档案关系抽取
3.3 本章小结
第四章 档案知识融合
4.1 知识融合模块设计
4.1.1 知识融合模块流程分析
4.1.2 基于MinHash建立分区索引
4.2 成对知识融合
4.2.1 基于属性权重的成对实体对齐
4.2.2 基于机器学习的成对实体对齐
4.3 集体知识融合
4.3.1 局部集体实体对齐
4.3.2 基于概率模型的全局集体对齐
4.4 本章小结
第五章 档案知识图谱质量评估
5.1 档案实体识别质量评估
5.1.1 实验设置
5.1.2 实验结果与分析
5.2 档案关系抽取质量评估
5.2.1 实验设置
5.2.2 实验结果与分析
5.3 档案数据实体对齐质量评估
5.3.1 实验设置
5.3.2 实验结果与分析
5.4 本章小结
第六章 总结与展望
6.1 本文总结
6.2 工作展望
参考文献
致谢
在学期间发表的学术论文及取得的研究成果
【参考文献】:
期刊论文
[1]中文实体关系抽取研究综述[J]. 武文雅,陈钰枫,徐金安,张玉洁. 计算机与现代化. 2018(08)
[2]面向企业知识图谱构建的中文实体关系抽取[J]. 孙晨,付英男,程文亮,钱卫宁. 华东师范大学学报(自然科学版). 2018(03)
[3]论数字档案馆生态系统的健康管理[J]. 罗传祥. 档案管理. 2018(01)
[4]国际文件/档案著录标准化前沿与趋势展望——基于国际最新著录标准ICA RiC的研究[J]. 段荣婷,马寅源,李真. 档案管理. 2018(01)
[5]基于中文知识图谱的电商领域问答系统[J]. 杜泽宇,杨燕,贺樑. 计算机应用与软件. 2017(05)
[6]知识图谱研究进展[J]. 漆桂林,高桓,吴天星. 情报工程. 2017(01)
[7]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[8]知识库实体对齐技术综述[J]. 庄严,李国良,冯建华. 计算机研究与发展. 2016(01)
[9]基于知识图谱的专家系统发展综述[J]. 廖佚. 现代情报. 2012(02)
[10]中国2009年金融学研究的知识图谱分析——南京大学知识图谱研究组系列论文[J]. 童玲玉,宗乾进,袁勤俭. 现代情报. 2011(05)
本文编号:3155411
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3155411.html
最近更新
教材专著