当前位置:主页 > 社科论文 > 图书档案论文 >

知识图谱构建并行化技术研究

发布时间:2025-03-20 02:35
  随着互联网和各个行业不断发展,数据也呈爆炸性增长。大数据环境下如何快速从海量数据中找到有价值的信息,并高效地从中抽取知识形成图谱是亟待解决的问题。本文分析了面向事件知识图谱和面向篇章理解知识图谱整个构建过程,结合现有技术设计了多种并行数据处理方法,将这些方法应用到图谱构建过程中各个阶段。本文的主要工作如下:(1)数据采集阶段,为了快速采集数据和对数据进行初步处理,设计并实现了一种基于主从模式的分布式数据采集架构,架构中各节点以消息队列为消息中间件进行通信和数据传递,使用该架构能灵活地配置节点和高效地进行数据采集。在文中实验环境下相比单节点采集效率能够提升约4倍;(2)知识抽取阶段,从采集的篇章/事件数据中抽取实体和关系。为应对抽取过程中存在的多种算法和不同大小的数据集,基于Spark和消息队列设计了三种数据并行处理方式。实验表明,在文中实验环境下,根据不同算法场景合理地选择并行化方法,相比单节点处理能提高知识抽取效率约13倍;(3)知识表示阶段,为解决传统知识表示方法的不足,采用了将知识图谱映射到向量空间的表示学习方法。分析了现有分布式深度学习框架,并将其应用到表示学习和深度学习模型训练...

【文章页数】:118 页

【学位级别】:硕士

【部分图文】:

图2-1Kafka基础组件及架构

图2-1Kafka基础组件及架构

第二章并行技术及知识图谱构建分析7第二章并行技术及知识图谱构建分析知识图谱构建过程中涉及多个阶段和多种算法,本章首先对并行处理技术中的分布式消息队列和并行计算框架做简要介绍,然后对面向事件知识图谱和面向篇章理解知识图谱构建过程做简要分析。2.1分布式消息队列消息队列常在分布式系统....


图2-2RabbitMQ基本结构

图2-2RabbitMQ基本结构

第二章并行技术及知识图谱构建分析9图2-2RabbitMQ基本结构RabbitMQ同其他消息队列类似,由生产者提交消息到Broker进行消息存储,随后消费者获取消息进行处理,队列中有以下一些基本概念:Message:由消息头和消息体两部分组成,消息头有路由键、消息优先级等属性,消....


图2-3Spark计算图划分阶段划分是根据最后的Action向前回溯,并根据依赖关系进行划分,划分过程如图2-3所示

图2-3Spark计算图划分阶段划分是根据最后的Action向前回溯,并根据依赖关系进行划分,划分过程如图2-3所示

电子科技大学硕士学位论文12依据RDD分区数生成多个任务(Task),集群计算节点通过调度器获取任务从而实现并行计算。图2-3Spark计算图划分阶段划分是根据最后的Action向前回溯,并根据依赖关系进行划分,划分过程如图2-3所示。图中从最后的Action类算子reduceB....


图2-4Spark组件ClusterManager:当以Standlone模式启动集群时,主要对集群中资源进行管

图2-4Spark组件ClusterManager:当以Standlone模式启动集群时,主要对集群中资源进行管

第二章并行技术及知识图谱构建分析13做程序的开发和调试;(2)Standlone:以主从结构运行,集群中的资源管理和调度都由Spark原生程序完成;(3)Mesos/YARN:集群启动后的资源管理由Mesos/YARN框架负责,对于任务调度和计算交给Spark框架。Spark集群....



本文编号:4037248

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/4037248.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7d2fc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com