基于外部语义知识补全的自然语言查询
发布时间:2021-03-21 07:48
语义网是依托互联网技术而产生的一类非常重要的资源。目前,语义网中的用户查询仅支持形式化的查询方式,因此需要严格地遵循某种特定的语法规范,从而导致只有熟悉语义网系统和形式语言的专业人士才能正确进行查询操作。为了弥补这一缺陷,提出了一个无指导的自然语言查询系统,它能自动地将自然语言的句子转换成语义网查询支持的形式语言语句,从而方便非专业用户(即普通用户)使用。该系统首先根据语义网自动抽取给定句子中的所有实体和属性,然后将这些实体和属性关联起来形成一个语义关联图,最后通过启发式的方式从图中搜索出一条最优路径,并将这条路径转换成SPARQL语句。该系统最关键的部分在于语义网中的实体和属性覆盖度,它能直接决定语义关联图的好坏,从而影响系统的最终性能。为了提升系统的实用性,进一步利用外部语义网的知识来补全和丰富自然语言句子中所蕴含的信息,优化中间生成的语义关联度,得到更准确的SPARQL语句。最后采用美国地理问题集进行实验以验证该系统以及提出的改进方法,该数据集共包含了880个问句的人工SPARQL语句,是自然语言查询相关工作中一个被广泛认可的数据集。最终实验结果表明:提出的基准系统能够正确回答7...
【文章来源】:计算机科学. 2019,46(08)北大核心CSCD
【文章页数】:5 页
【部分图文】:
图1实体与属性抽取的实例Fig.1Exampleofentityandattributeextraction
都可以直接相连。对于前面的例子,通过建图,可以得到如图2所示的〈实体-属性〉关联图,其中〈实体-属性〉之间的路径连接参见虚线线条,start和end是两个人工构造的节点,以方便后续的路径搜索。图2〈实体-属性〉关联图Fig.2〈entity-attribute〉relationshipdiagram当〈实体-属性〉关联图建立完成之后,搜索一条从start节点到end节点的最优路径。其中每条路径的得分直接根据路径中每个节点的得分之和产生,而每个节点的得分又与该节点新产生的实体数目Ne和新产生的属性数目Na有关,其计算分数也非常简单,如下所示:score(·)=Ne+1Na+1直觉上,如果一条路径上的实体数目越多,且属性数目越少,则该路径越可能被选择。换句话说,如果一个新增加的实体节点能尽量不增加属性数目,则该节点更有可能被添加到最终的路径中。根据上面的路径分数计算方法可知,在图2所示的例子中,〈start〉→〈population,hasPopulation〉→〈new-york,city〉→〈city,city〉→〈end〉的总得分为1+1+2=4;而〈start〉→〈population,hasPopulation〉→〈newyork,state〉→〈city,city〉→〈end〉的总得分为1+1+1=3。图2最后得到的最优路径实际上为〈start〉→〈population,h
图3句法和语义分析结果Fig.3Analysisresultsofsyntacticandsemantic图4实体属性词的抽取Fig.4Extractionofentityattributeword将三元组全部被抽取出来之后进行简单的频率过滤,保留一些可信度比较高的三元组,并将这些三元组逐个加入到现有的语义网中。具体的构建方式也非常简单,即首先查找实体,如果现有语义网中没有这些实体,则将其作为一个顶点加入其中,然后再查找关系以及边,将这些顶点相连,并指定边上的关系,这些边上关系对应于一个实体和属性。5实验本实验采用的语义网数据是通过对美国地理数据库进行转换而产生的。该数据库的原始数据是使用Prolog语言进行描述的,这里首先将Prolog描述的数据转换成关系数据库,然后通过开源工具将得到的关系数据库转化成RDF格式的本体数据。本实验使用的自然语言的问题集来自于德克萨斯州立大学自然语言处理团队开发的针对美国地理数据库的问题集,它一共包含880个自然语言问句。这一问题集已被广泛用于语义分析、问答以及自然语言查询等相关任务中。本文进一步对这些问句进行了人工标注,使得每一个自然语言的问句都对应一个SPARQL查询。在实验评价时,由于很难直接采用SPARQL语句来进行评价,因此使用系统生成的SPARQL语句和正确SPARQL语句在语义网数据中的结果来进行评价,如果两者一致,则认为查询结果正确,否则认为查询结果错误。最终的评价指标为准确率,即对880句自然语言问句进行自动
【参考文献】:
期刊论文
[1]面向知识库的中文自然语言问句的语义理解[J]. 许坤,冯岩松,赵东岩,陈立伟,邹磊. 北京大学学报(自然科学版). 2014(01)
[2]基于自然语言理解的SPARQL本体查询[J]. 张宗仁,杨天奇. 计算机应用. 2010(12)
[3]基于Ontology的数据库自然语言查询接口的研究[J]. 李虎,田金文,王缓缓,石勇. 计算机科学. 2010(06)
本文编号:3092497
【文章来源】:计算机科学. 2019,46(08)北大核心CSCD
【文章页数】:5 页
【部分图文】:
图1实体与属性抽取的实例Fig.1Exampleofentityandattributeextraction
都可以直接相连。对于前面的例子,通过建图,可以得到如图2所示的〈实体-属性〉关联图,其中〈实体-属性〉之间的路径连接参见虚线线条,start和end是两个人工构造的节点,以方便后续的路径搜索。图2〈实体-属性〉关联图Fig.2〈entity-attribute〉relationshipdiagram当〈实体-属性〉关联图建立完成之后,搜索一条从start节点到end节点的最优路径。其中每条路径的得分直接根据路径中每个节点的得分之和产生,而每个节点的得分又与该节点新产生的实体数目Ne和新产生的属性数目Na有关,其计算分数也非常简单,如下所示:score(·)=Ne+1Na+1直觉上,如果一条路径上的实体数目越多,且属性数目越少,则该路径越可能被选择。换句话说,如果一个新增加的实体节点能尽量不增加属性数目,则该节点更有可能被添加到最终的路径中。根据上面的路径分数计算方法可知,在图2所示的例子中,〈start〉→〈population,hasPopulation〉→〈new-york,city〉→〈city,city〉→〈end〉的总得分为1+1+2=4;而〈start〉→〈population,hasPopulation〉→〈newyork,state〉→〈city,city〉→〈end〉的总得分为1+1+1=3。图2最后得到的最优路径实际上为〈start〉→〈population,h
图3句法和语义分析结果Fig.3Analysisresultsofsyntacticandsemantic图4实体属性词的抽取Fig.4Extractionofentityattributeword将三元组全部被抽取出来之后进行简单的频率过滤,保留一些可信度比较高的三元组,并将这些三元组逐个加入到现有的语义网中。具体的构建方式也非常简单,即首先查找实体,如果现有语义网中没有这些实体,则将其作为一个顶点加入其中,然后再查找关系以及边,将这些顶点相连,并指定边上的关系,这些边上关系对应于一个实体和属性。5实验本实验采用的语义网数据是通过对美国地理数据库进行转换而产生的。该数据库的原始数据是使用Prolog语言进行描述的,这里首先将Prolog描述的数据转换成关系数据库,然后通过开源工具将得到的关系数据库转化成RDF格式的本体数据。本实验使用的自然语言的问题集来自于德克萨斯州立大学自然语言处理团队开发的针对美国地理数据库的问题集,它一共包含880个自然语言问句。这一问题集已被广泛用于语义分析、问答以及自然语言查询等相关任务中。本文进一步对这些问句进行了人工标注,使得每一个自然语言的问句都对应一个SPARQL查询。在实验评价时,由于很难直接采用SPARQL语句来进行评价,因此使用系统生成的SPARQL语句和正确SPARQL语句在语义网数据中的结果来进行评价,如果两者一致,则认为查询结果正确,否则认为查询结果错误。最终的评价指标为准确率,即对880句自然语言问句进行自动
【参考文献】:
期刊论文
[1]面向知识库的中文自然语言问句的语义理解[J]. 许坤,冯岩松,赵东岩,陈立伟,邹磊. 北京大学学报(自然科学版). 2014(01)
[2]基于自然语言理解的SPARQL本体查询[J]. 张宗仁,杨天奇. 计算机应用. 2010(12)
[3]基于Ontology的数据库自然语言查询接口的研究[J]. 李虎,田金文,王缓缓,石勇. 计算机科学. 2010(06)
本文编号:3092497
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3092497.html