健康饮食领域知识图谱构建与应用研究
发布时间:2021-09-02 09:18
在过去的40年里,发展中国家经济的高速发展引起了人民膳食结构的显著变化,肉类产品消费量增长,慢性疾病成为人类健康的主要杀手,在这种背景下,人们对于获取健康饮食知识的需求日益增长。幸运的是,互联网创造了一个健康饮食信息的搜索、学习和共享平台,但这些信息纷繁复杂,涉及到食物种类、营养、医疗等多个方面,且分布在多个数据源上,为用户的检索和学习带来困难。如何整合这些知识,挖掘隐含在半结构和非结构文本中的概念和语义关系,为健康食物的检索系统提供更加丰富的语义信息是一个具有重要意义的研究问题。目前,学术界和工业界将解决这一问题的方法聚焦在知识图谱领域,基于知识图谱技术出现了许多健康方面的研究和应用系统,但是多数知识图谱集中在专业医疗领域,其中实体和关系多数来自于专家定义、已有知识库等结构化和半结构化数据,从互联网自然语言中提取知识进行自动构建的方案不多,此外,与英文相比,已有的中文领域知识库和训练语料很少,为知识整合带来挑战。本文针对健康饮食数据的特点,定义了知识图谱中主要包含的五个实体,分别是食材、菜品、营养元素、症状和人群,然后从多个健康网站中获取半结构和非结构的文本数据,进行实体识别、关系识...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
(a)百度搜索“知识图谱”结果
图 2.1(b) 百度搜索“人工智能相关书籍”结果2.2 知识图谱构建技术概述知识图谱构建涉及到多个研究领域的方法,因此,知识图谱的构建需要依据数据特点和实际应用需求决定。一般知识图谱的结构分为模式层(本体层)和数据层,模式层一般为专家定义的领域本体,描述知识图谱中的概念类别、属性和关系等,是该领域达成共识的知识或真理。数据层按照本体层所定义的概念类型和属性从海量数据中识别这些概念的实例,并按照定义的对象属性对其进行整合,从而形成大规模知识库。本体层在构建的过程中可以采用自顶向下(Top-down)和自底向上(Bottom-up)两种方案[19],自顶向下方案指的是在整合实体层的数据之前首先由专家对知识图谱中所包含的概念种类、属性、关系、公理、规则等进行定义,构建好本体层的数据模式,然后按照模式来整合数据资源,这种方法在许多早期知识库的构
图 2.2 知识图谱构建流程图构建过程中,通常使用自然语言技术对数据进行处理,识别句子中的相关术语和关系,然后进行知识融合,对不同来源抽取出的知识实体进行合并,在这一步骤中需要考虑语义消歧的问题,简而言之,就是一词多义和同义词现象,例如“苹果”可以表示一种水果,也可以表示品牌,对于上一步骤中识别出的实体指称需要判断其在上下文语境中的意义,具有相同的语义的全部词汇均要链接到同一实体。最后,将新知识进行存储,对知识库进行优化、评估、更新等操作,也可以使用知识推理来补全图谱中缺失的关系。2.2.1 实体识别知识图谱构建过程中首先需要考虑的问题就是命名实体识别,用于构建知识图谱的数据源多种多样,不同的数据源需要考虑不同的数据处理和命名实体识别方法。按照数据的结构化程度可以将数据源分为三种类型:
本文编号:3378756
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
(a)百度搜索“知识图谱”结果
图 2.1(b) 百度搜索“人工智能相关书籍”结果2.2 知识图谱构建技术概述知识图谱构建涉及到多个研究领域的方法,因此,知识图谱的构建需要依据数据特点和实际应用需求决定。一般知识图谱的结构分为模式层(本体层)和数据层,模式层一般为专家定义的领域本体,描述知识图谱中的概念类别、属性和关系等,是该领域达成共识的知识或真理。数据层按照本体层所定义的概念类型和属性从海量数据中识别这些概念的实例,并按照定义的对象属性对其进行整合,从而形成大规模知识库。本体层在构建的过程中可以采用自顶向下(Top-down)和自底向上(Bottom-up)两种方案[19],自顶向下方案指的是在整合实体层的数据之前首先由专家对知识图谱中所包含的概念种类、属性、关系、公理、规则等进行定义,构建好本体层的数据模式,然后按照模式来整合数据资源,这种方法在许多早期知识库的构
图 2.2 知识图谱构建流程图构建过程中,通常使用自然语言技术对数据进行处理,识别句子中的相关术语和关系,然后进行知识融合,对不同来源抽取出的知识实体进行合并,在这一步骤中需要考虑语义消歧的问题,简而言之,就是一词多义和同义词现象,例如“苹果”可以表示一种水果,也可以表示品牌,对于上一步骤中识别出的实体指称需要判断其在上下文语境中的意义,具有相同的语义的全部词汇均要链接到同一实体。最后,将新知识进行存储,对知识库进行优化、评估、更新等操作,也可以使用知识推理来补全图谱中缺失的关系。2.2.1 实体识别知识图谱构建过程中首先需要考虑的问题就是命名实体识别,用于构建知识图谱的数据源多种多样,不同的数据源需要考虑不同的数据处理和命名实体识别方法。按照数据的结构化程度可以将数据源分为三种类型:
本文编号:3378756
本文链接:https://www.wllwen.com/projectlw/qgylw/3378756.html