基于词向量的开放关系抽取与分类技术研究
发布时间:2022-12-07 22:38
关系抽取是一类重要的信息抽取(Information Extraction,IE)任务,旨在从无结构或半结构的自然语言文本中抽取实体间的关系信息。传统的关系抽取大部分是抽取预定义的关系,为抽取新的关系,需要编写新的关系抽取规则或标注新的数据集。而大规模真实文本中包含着非常丰富的实体关系,难以全部预先定义,为了有效获取这些信息,Banko 等于 2007 年提出了开放关系抽取(Open Relation Extraction,ORE)的任务,旨在尽可能抽取大规模文本中存在的各类实体关系。近十年来,研究者们发布了许多开放关系抽取系统。然而,目前的ORE系统在抽取性能方面还存在问题,比如抽取出不符合事实的关系三元组,并且在抽取效率方面还不能满足处理大规模Web文本的需求。另一方面,虽然ORE系统可以从文本中抽取出所有类别的关系,但一些下游任务只对少量特定的关系类别关系感兴趣。所以,开放关系的分类对下游应用具有重要价值,但目前还没有对开放关系分类的相关研究。本文在前人研究的基础上开展工作。主要内容和贡献包括:(1)提出了一种基于词向量的开放关系抽取模型。近年来出现的绝大多数ORE系统都是建立在...
【文章页数】:116 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第一章 引言
1.1 研究的背景和意义
1.2 国内外研究现状及分析
1.2.1 开放关系抽取技术
1.2.2 开放关系分类技术
1.2.3 开放关系研究中存在的问题
1.3 本论文的研究内容及结构安排
第二章 基础知识
2.1 词向量简介
2.2 基于词向量的关系分类技术
2.3 半监督聚类算法
2.4 短语的向量表示
2.4.1 短语向量模型
2.4.2 短语向量编码结构
2.4.3 短语向量模型的训练
2.4.4 短语向量模型的比较
2.5 本章小结
第三章 基于词向量距离的开放关系抽取
3.1 基于向量距离的抽取算法
3.1.1 抽取算法描述
3.1.2 可信度计算方式转化的分析
3.2 实验结果及分析
3.2.1 数据集和评价指标
3.2.2 实验结果
3.3 本章小结
第四章 基于半积极算法的开放关系分类
4.1 开放关系分类算法
4.1.1 SemiE算法
4.1.2 关系短语的向量表示
4.2 实验结果及分析
4.2.1 数据集和评测指标
4.2.2 模型训练
4.2.3 实验结果
4.2.4 实验结果分析
4.3 本章小结及讨论
第五章 基于信息量的短语向量模型
5.1 短语向量性能分析
5.1.1 短语向量的浅层语言学性能分析
5.1.2 短语向量的深层语言学性能分析
5.2 BoV模型的改进
5.2.1 Info-BoV模型
5.2.2 Info-BoV性育臣评价
5.3 Info-BoV向量在开放关系研究中的应用
5.3.1 Info-BoV向量在开放关系抽取中的应用
5.3.2 Info-BoV向量在开放关系分类中的应用
5.3.3 实验结果分析
5.4 本章小结
第六章 基于词向量的开放关系抽取演示系统
6.1 系统设计概要
6.2 模块设计与实现
6.3 系统演示
6.4 本章小结
第七章 总结与展望
7.1 总结
7.2 展望
参考文献
致谢
攻读博士学位期间发表的学术论文
【参考文献】:
期刊论文
[1]密度敏感的距离测度在特定图像聚类中的应用[J]. 吴毓龙,袁平波. 计算机工程. 2009(06)
[2]半监督聚类中基于密度的约束扩展方法[J]. 张亮,李敏强. 计算机工程. 2008(10)
[3]基于双近邻测度的半监督聚类方法[J]. 罗晓清,王士同. 计算机应用与软件. 2008(04)
本文编号:3712995
【文章页数】:116 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第一章 引言
1.1 研究的背景和意义
1.2 国内外研究现状及分析
1.2.1 开放关系抽取技术
1.2.2 开放关系分类技术
1.2.3 开放关系研究中存在的问题
1.3 本论文的研究内容及结构安排
第二章 基础知识
2.1 词向量简介
2.2 基于词向量的关系分类技术
2.3 半监督聚类算法
2.4 短语的向量表示
2.4.1 短语向量模型
2.4.2 短语向量编码结构
2.4.3 短语向量模型的训练
2.4.4 短语向量模型的比较
2.5 本章小结
第三章 基于词向量距离的开放关系抽取
3.1 基于向量距离的抽取算法
3.1.1 抽取算法描述
3.1.2 可信度计算方式转化的分析
3.2 实验结果及分析
3.2.1 数据集和评价指标
3.2.2 实验结果
3.3 本章小结
第四章 基于半积极算法的开放关系分类
4.1 开放关系分类算法
4.1.1 SemiE算法
4.1.2 关系短语的向量表示
4.2 实验结果及分析
4.2.1 数据集和评测指标
4.2.2 模型训练
4.2.3 实验结果
4.2.4 实验结果分析
4.3 本章小结及讨论
第五章 基于信息量的短语向量模型
5.1 短语向量性能分析
5.1.1 短语向量的浅层语言学性能分析
5.1.2 短语向量的深层语言学性能分析
5.2 BoV模型的改进
5.2.1 Info-BoV模型
5.2.2 Info-BoV性育臣评价
5.3 Info-BoV向量在开放关系研究中的应用
5.3.1 Info-BoV向量在开放关系抽取中的应用
5.3.2 Info-BoV向量在开放关系分类中的应用
5.3.3 实验结果分析
5.4 本章小结
第六章 基于词向量的开放关系抽取演示系统
6.1 系统设计概要
6.2 模块设计与实现
6.3 系统演示
6.4 本章小结
第七章 总结与展望
7.1 总结
7.2 展望
参考文献
致谢
攻读博士学位期间发表的学术论文
【参考文献】:
期刊论文
[1]密度敏感的距离测度在特定图像聚类中的应用[J]. 吴毓龙,袁平波. 计算机工程. 2009(06)
[2]半监督聚类中基于密度的约束扩展方法[J]. 张亮,李敏强. 计算机工程. 2008(10)
[3]基于双近邻测度的半监督聚类方法[J]. 罗晓清,王士同. 计算机应用与软件. 2008(04)
本文编号:3712995
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3712995.html