互联网人物摘要知识图谱构建方法研究
发布时间:2021-02-18 08:40
知识图谱构建主要研究如何从互联网公开网页中识别指定人物的相关信息,并根据信息构建结构化的人物摘要知识图谱。构建过程包括从一般网页中抽取人物信息和根据人物摘要本体模型从信息中抽取人物的知识三元组。目前并不缺乏本体建模的理论研究,但是在具体应用中缺少指导性规范,特别是人物摘要本体构建过程中涉及的多元关系建模,人物本体建模的质量参差不齐。由于互联网网页的网页种类和内容类型繁多,现有的模板匹配和正文抽取算法都不能直接用于从返回的异构网页中抽取与人物相关的信息,从互联网中获取知识需要解决从一般网页抽取人物相关信息的问题。目前深度学习逐渐成为知识抽取的主流算法,然而深度学习抽取领域知识三元组的主要难点在于缺乏标记样本无法训练网络,特别是多元关系的抽取。互联网人名检索得到的网页可能对应现实中多个不同的实体,为了避免不同实体之间信息的相互干扰需要进行人名消歧。现有的消歧算法主要依赖于文本层次聚类,不同人名聚类采用的相似阈值和合并策略并不完全相同,导致实验效果并不理想。综上所述,本文的主要研究从人物摘要本体模型构建,互联网人物信息抽取,人物属性和关系抽取,人名消歧四个方面展开研究:本体模型建模方法研究。...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:128 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 本体建模方法研究现状
1.2.2 网页信息抽取研究现状
1.2.3 文本关系抽取研究现状
1.2.4 网页重名人物消歧研究现状
1.3 本文的主要研究内容和创新点
1.3.1 主要研究内容
1.3.2 主要创新点
1.4 论文的组织结构
第2章 人物摘要本体模型构建与评估
2.1 引言
2.2 一种人物本体多元关系定义规范
2.2.1 人物本体多元关系分析
2.2.2 通用实体多元关系定义
2.2.3 可重用多元关系定义方法
2.3 人物摘要本体兼容设计模式
2.4 基于层次分析的本体模型评估
2.4.1 本体模型评估指标构建
2.4.2 本体评估质量度量标准
2.4.3 本体模型质量评估计算
2.5 本章小结
第3章 互联网人物信息抽取算法
3.1 引言
3.2 基于序列块的网页表示模型
3.2.1 网页序列块模型生成方法
3.2.2 网页人物信息序列块表示
3.3 基于循环网络的人物信息抽取算法
3.3.1 长短时记忆循环网络
3.3.2 人物信息抽取网络结构
3.4 实验结果及分析
3.4.1 实验数据预处理
3.4.2 模型训练与参数优化
3.4.3 人物信息抽取结果分析
3.5 本章小结
第4章 人物本体属性和多元关系抽取
4.1 引言
4.2 人物属性抽取算法
4.2.1 人物属性抽取问题定义
4.2.2 基于注意力模型的人物属性抽取算法
4.3 基于自监督的多元关系标记算法
4.3.1 多元关系标记问题定义
4.3.2 深度学习自监督性分析
4.3.3 基于自监督的样本标记算法流程
4.4 实验结果及分析
4.4.1 属性抽取实验结果及分析
4.4.2 多元关系标记仿真实验结果及分析
4.4.3 人物摘要多元关系标记实验结果及分析
4.5 本章小结
第5章 网络重名人物信息消歧算法
5.1 引言
5.2 网络人名消歧问题定义
5.3 包含文本主题的无阈值人名消歧方法
5.3.1 丰富网页主题特征的消歧向量构建
5.3.2 狄利克雷过程人名消歧算法
5.3.3 变分推断模型求解
5.3.4 算法参数及评价指标
5.4 实验结果及分析
5.4.1 网页主题特征抽取实验及分析
5.4.2 人名消歧实验结果及分析
5.5 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历
【参考文献】:
期刊论文
[1]从文本中构建领域本体技术综述[J]. 任飞亮,沈继坤,孙宾宾,朱靖波. 计算机学报. 2019(03)
[2]基于核函数中文关系自动抽取系统的实现[J]. 刘克彬,李芳,刘磊,韩颖. 计算机研究与发展. 2007(08)
[3]基于统计的网页正文信息抽取方法的研究[J]. 孙承杰,关毅. 中文信息学报. 2004(05)
[4]Ontology方法学综述[J]. 杨秋芬,陈跃新. 计算机应用研究. 2002(04)
本文编号:3039324
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:128 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 本体建模方法研究现状
1.2.2 网页信息抽取研究现状
1.2.3 文本关系抽取研究现状
1.2.4 网页重名人物消歧研究现状
1.3 本文的主要研究内容和创新点
1.3.1 主要研究内容
1.3.2 主要创新点
1.4 论文的组织结构
第2章 人物摘要本体模型构建与评估
2.1 引言
2.2 一种人物本体多元关系定义规范
2.2.1 人物本体多元关系分析
2.2.2 通用实体多元关系定义
2.2.3 可重用多元关系定义方法
2.3 人物摘要本体兼容设计模式
2.4 基于层次分析的本体模型评估
2.4.1 本体模型评估指标构建
2.4.2 本体评估质量度量标准
2.4.3 本体模型质量评估计算
2.5 本章小结
第3章 互联网人物信息抽取算法
3.1 引言
3.2 基于序列块的网页表示模型
3.2.1 网页序列块模型生成方法
3.2.2 网页人物信息序列块表示
3.3 基于循环网络的人物信息抽取算法
3.3.1 长短时记忆循环网络
3.3.2 人物信息抽取网络结构
3.4 实验结果及分析
3.4.1 实验数据预处理
3.4.2 模型训练与参数优化
3.4.3 人物信息抽取结果分析
3.5 本章小结
第4章 人物本体属性和多元关系抽取
4.1 引言
4.2 人物属性抽取算法
4.2.1 人物属性抽取问题定义
4.2.2 基于注意力模型的人物属性抽取算法
4.3 基于自监督的多元关系标记算法
4.3.1 多元关系标记问题定义
4.3.2 深度学习自监督性分析
4.3.3 基于自监督的样本标记算法流程
4.4 实验结果及分析
4.4.1 属性抽取实验结果及分析
4.4.2 多元关系标记仿真实验结果及分析
4.4.3 人物摘要多元关系标记实验结果及分析
4.5 本章小结
第5章 网络重名人物信息消歧算法
5.1 引言
5.2 网络人名消歧问题定义
5.3 包含文本主题的无阈值人名消歧方法
5.3.1 丰富网页主题特征的消歧向量构建
5.3.2 狄利克雷过程人名消歧算法
5.3.3 变分推断模型求解
5.3.4 算法参数及评价指标
5.4 实验结果及分析
5.4.1 网页主题特征抽取实验及分析
5.4.2 人名消歧实验结果及分析
5.5 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历
【参考文献】:
期刊论文
[1]从文本中构建领域本体技术综述[J]. 任飞亮,沈继坤,孙宾宾,朱靖波. 计算机学报. 2019(03)
[2]基于核函数中文关系自动抽取系统的实现[J]. 刘克彬,李芳,刘磊,韩颖. 计算机研究与发展. 2007(08)
[3]基于统计的网页正文信息抽取方法的研究[J]. 孙承杰,关毅. 中文信息学报. 2004(05)
[4]Ontology方法学综述[J]. 杨秋芬,陈跃新. 计算机应用研究. 2002(04)
本文编号:3039324
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3039324.html