基于Bootstrapping的水利空间关系词提取
发布时间:2021-06-07 00:38
目前,在利用水利领域数据库构建知识图谱的过程中发现水利空间关系词的提取存在以下问题:数据库中水利对象空间关系词较少,难以满足查询需要;水利对象间的关系类型复杂,依靠人工构建太过费力。为了解决上述问题,文中首先从专业性强的高质量水利公文文本中提取空间关系词形成种子集;然后,通过外部词典进行空间关系词的扩展,并结合语料提取面向水利空间关系词的句法模式;最后,通过泛化后的句法模式,对大规模水利文本数据进行空间关系词提取,生成空间关系元组,再将其作为种子集重复上述步骤。该方法使用少量的人工操作便可从语料中获得大量空间语义句法模式以及空间关系元组,逐步扩展构建并最终形成水利空间关系词词典,成为扩充水利对象知识图谱、提升智能检索的准确率的重要支撑。
【文章来源】:计算机科学. 2020,47(12)北大核心CSCD
【文章页数】:8 页
【部分图文】:
本文方法框架
3.3节使用句法模式的泛化来获得多个抽象模式,这些抽象模式都可以用来提取空间关系元组。本节重点介绍如何在语料库中利用抽象模式来获取更多的空间关系元组,图2为空间关系的提取流程。首先,根据空间关系词词表从大规模语料中检索出包含该词的共现句,通过分词、词性标注、去除停用词等预处理,以及上述原始句法模式获取方法得到这些句子的句法模式;然后将生成的每个模式与抽象模式集合内的模式匹配,当原始句法模式与抽象模式中的实体类型相同、关系词的词序相同,并且原始句法模式与某个抽象模式的相似度大于阈值β(设置为0.8)时,则抽取出对应的空间关系三元组。
【参考文献】:
期刊论文
[1]健康领域Web信息抽取[J]. 李汝君,张俊,张晓民,桂小庆. 计算机应用. 2016(01)
[2]水利数据资源目录服务关键技术研究[J]. 成建国,冯钧,杨鹏,唐志贤. 水利信息化. 2014(06)
[3]基于领域本体的语义查询扩展[J]. 胡川洌,符云清,钟明洋. 计算机系统应用. 2012(07)
[4]开放式文本信息抽取[J]. 赵军,刘康,周光有,蔡黎. 中文信息学报. 2011(06)
[5]自然语言处理中词语上下文有效范围的定量描述[J]. 鲁松,白硕. 计算机学报. 2001(07)
本文编号:3215476
【文章来源】:计算机科学. 2020,47(12)北大核心CSCD
【文章页数】:8 页
【部分图文】:
本文方法框架
3.3节使用句法模式的泛化来获得多个抽象模式,这些抽象模式都可以用来提取空间关系元组。本节重点介绍如何在语料库中利用抽象模式来获取更多的空间关系元组,图2为空间关系的提取流程。首先,根据空间关系词词表从大规模语料中检索出包含该词的共现句,通过分词、词性标注、去除停用词等预处理,以及上述原始句法模式获取方法得到这些句子的句法模式;然后将生成的每个模式与抽象模式集合内的模式匹配,当原始句法模式与抽象模式中的实体类型相同、关系词的词序相同,并且原始句法模式与某个抽象模式的相似度大于阈值β(设置为0.8)时,则抽取出对应的空间关系三元组。
【参考文献】:
期刊论文
[1]健康领域Web信息抽取[J]. 李汝君,张俊,张晓民,桂小庆. 计算机应用. 2016(01)
[2]水利数据资源目录服务关键技术研究[J]. 成建国,冯钧,杨鹏,唐志贤. 水利信息化. 2014(06)
[3]基于领域本体的语义查询扩展[J]. 胡川洌,符云清,钟明洋. 计算机系统应用. 2012(07)
[4]开放式文本信息抽取[J]. 赵军,刘康,周光有,蔡黎. 中文信息学报. 2011(06)
[5]自然语言处理中词语上下文有效范围的定量描述[J]. 鲁松,白硕. 计算机学报. 2001(07)
本文编号:3215476
本文链接:https://www.wllwen.com/kejilunwen/shuiwenshuili/3215476.html